Pomoc w programowaniu, odpowiedzi na pytania / r / Jak efektywnie przeglądać kolumny ramki danych? [duplikat] - r, dataframe, strsplit

Jak efektywnie przechodzić przez kolumny ramki danych? [duplicate] - r, dataframe, strsplit

Więc, data jest ramką danych składającą się z wielu kolumn, z których jedna nazywa się lpep_pickup_datetime zawiera datę i godzinę w formacie „01/01/2016 12:39:36 AM”

Chcę przeanalizować te dane według daty i godziny, więc próbuję utworzyć nową kolumnę o nazwie pickup_date i jeden nazwany pickup_time z informacją AM lub PM.

Użyłem funkcji strsplit, aby podzielić ciąg na następującą postać: c („01/01/2016”, „12:29:24”, „AM”) i próbuję utworzyć z tego wyżej wymienione kolumny dane.

Napisałem następujący kod:

data$lpep_pickup_datetime=strsplit(data$lpep_pickup_datetime, " ")

data$pickup_date=data$lpep_pickup_datetime[[1]][1]


for (i in seq(1,90181))
{
data$pickup_time[i]=data$lpep_pickup_datetime[[i]][2]
}

Jest to bardzo nieefektywne, ponieważ iteracja przez 90181 wierszy danych trwa zbyt długo. Czy jest lepszy sposób na wykonanie tego zadania?

Dzięki.

Odpowiedzi:

1 dla odpowiedzi № 1

?apply(df, 2, function(...) ) jest zwykłym sposobem iterowania po kolumnach. Ale nie musisz tego robić tutaj

> df<-data.frame("datetime" = format(seq(c(ISOdate(2000,3,20)), by = "day", length.out = 100000), "%Y-%m-%d %r"), stringsAsFactors=FALSE)
> str(df)
"data.frame":   100000 obs. of  1 variable:
$ datetime: chr  "2000-03-20 08:00:00 PM" "2000-03-21 08:00:00 PM" "2000-03-22 08:00:00 PM" "2000-03-23 08:00:00 PM" ...
> df$dateonly<-format(as.Date(df$datetime, format="%Y-%m-%d %r"),"%Y-%m-%d")
> head(df)
datetime   dateonly
1 2000-03-20 08:00:00 PM 2000-03-20
2 2000-03-21 08:00:00 PM 2000-03-21
3 2000-03-22 08:00:00 PM 2000-03-22
4 2000-03-23 08:00:00 PM 2000-03-23
5 2000-03-24 08:00:00 PM 2000-03-24
6 2000-03-25 08:00:00 PM 2000-03-25

1 dla odpowiedzi nr 2

W base R, możemy użyć sub aby utworzyć separator, a następnie za pomocą read.csv utwórz dwie kolumny

data[paste0("pickup_", c("date", "time"))] <- read.csv(text=sub("\s+",
",", data$lpep_pickup_datetime),  header=FALSE, stringsAsFactors=FALSE)

Powiązane pytania

Zastosuj przez ramkę danych - r, ramkę danych, stringr

R - Dzielenie tekstu kolumny na 2 kolumny bez separatora - r

Dlaczego nie zastępuje kolumn poprawnie? df1 [i, b] <- df2 [i, b] [duplicate] - r

Jak podzielić ciąg znaków w ramce danych na kilka kolumn - r, string, split

Podziel wszystkie wartości w kolumnach, aby utworzyć nowe kolumny - r

Efektywnie przekształcić wiele kolumn ramki danych - r

Iteruj po kolumnach ramek danych, aby obliczyć średnią - r, pętle, ramkę danych, iterację

Rozdzielona ramka danych w oparciu o jedną kolumnę w r, z nieokreśloną szerokością kolumny [duplicate] - r, dataframe, reshape, tidyr

„Dummy” kodujące czynnik, który ma dwie wartości w R [duplikat] - r, dane-nauki, dane kategoryczne

przenieś wpisy wierszy do kolumn i wpisów kolumn do wierszy - r

R: Zastosuj funkcję do określonych kolumn zachowując resztę ramek danych - r, ramka danych, sapply

Policz liczbę nazw ułożonych pionowo w polu kolumny ramki danych - r

Jak zapętlić strplit na wiele kolumn w R - r, pętli, strsplit

Podziel kolumnę w ramce danych w R na znak "%" - r, ramka danych

Usunięcie kolumny przez scharakteryzowanie wartości w R [duplikat] - r, ramka danych, wiele kolumn

Dołącza ramkę danych w Pandach w ramach funkcji - python, panda, ramka danych

Zmniejszanie ramek danych Pandy do innych ramek danych - python, panda, ramka danych, wiele kolumn

panda ramka danych usuwa stałą kolumnę - python, pandy, ramkę danych

Panda Data Frame w kolbie [duplikat] - python, panda, kolba

Kolumna Dataframe o dwóch różnych nazwach - apache-spark, apache-spark-sql