Допомога у програмуванні, відповіді на питання / р / Як ефективно перебирати стовпці фрейму даних? [дублікат] - r, фрейм даних, strsplit

Як ефективно ітерації по стовпцям кадру даних ефективно? [дублікат] - r, кадр даних, strsplit

Так, data - це кадр даних, що складається з багатьох стовпців, і один з яких викликається lpep_pickup_datetime має дату та час у форматі "01.01.2016 00:39:36"

Я хочу проаналізувати ці дані за датою та часом, тому намагаюся створити новий стовпець з назвою pickup_date і один названий pickup_time з інформацією про AM або PM.

Я використав функцію strsplit, щоб розділити рядок у такій формі: c ("01.01.2016", "12:29:24", "AM"), і я намагаюся створити згадані стовпці з цього даних.

Я написав такий код:

data$lpep_pickup_datetime=strsplit(data$lpep_pickup_datetime, " ")

data$pickup_date=data$lpep_pickup_datetime[[1]][1]


for (i in seq(1,90181))
{
data$pickup_time[i]=data$lpep_pickup_datetime[[i]][2]
}

Це вкрай неефективно, оскільки перебирання 90181 рядків даних займає занадто багато часу. Чи є кращий спосіб виконати це завдання?

Дякую.

Відповіді:

1 для відповіді № 1

?apply(df, 2, function(...) ) це звичайний спосіб ітерації по стовпцях. Але вам не потрібно цього робити тут

> df<-data.frame("datetime" = format(seq(c(ISOdate(2000,3,20)), by = "day", length.out = 100000), "%Y-%m-%d %r"), stringsAsFactors=FALSE)
> str(df)
"data.frame":   100000 obs. of  1 variable:
$ datetime: chr  "2000-03-20 08:00:00 PM" "2000-03-21 08:00:00 PM" "2000-03-22 08:00:00 PM" "2000-03-23 08:00:00 PM" ...
> df$dateonly<-format(as.Date(df$datetime, format="%Y-%m-%d %r"),"%Y-%m-%d")
> head(df)
datetime   dateonly
1 2000-03-20 08:00:00 PM 2000-03-20
2 2000-03-21 08:00:00 PM 2000-03-21
3 2000-03-22 08:00:00 PM 2000-03-22
4 2000-03-23 08:00:00 PM 2000-03-23
5 2000-03-24 08:00:00 PM 2000-03-24
6 2000-03-25 08:00:00 PM 2000-03-25

1 для відповіді № 2

В base R, ми можемо використовувати sub щоб створити роздільник, а потім за допомогою read.csv створити дві колонки

data[paste0("pickup_", c("date", "time"))] <- read.csv(text=sub("\s+",
",", data$lpep_pickup_datetime),  header=FALSE, stringsAsFactors=FALSE)

Схожі запитання

Застосувати через frameframe-r, dataframe, stringr

R - Розбиття тексту стовпця на 2 стовпці без роздільника - r

Чому це правильно не замінює колонки? df1 [i, b] <- df2 [i, b] [дублікат] - r

Як я можу розділити рядок символів на кадр даних на кілька стовпчиків - r, рядок, розділити

Розділити всі значення у стовпцях, щоб створити нові стовпці - r

Ефективно перетворити кілька стовпців кадру даних - r

Ітератуйте по стовпцям кадрів даних, щоб обчислити середнє значення - r, цикли, кадри даних, ітерацію

Спліт кадрів даних на основі одного стовпця в r з нефіксованою шириною стовпця [duplicate] - r, frame, reshape, tidyr

"Dummy" кодування фактора, що має два значення в R [дублювати] - r, наука про дані, категоріальні дані

Передавати записи рядків у стовпці та записи стовпців у рядки - r

R: застосувати функцію до певних стовпчиків, зберігаючи решту фрагмента даних - r, dataframe, sapply

Граф кількість імен у вертикальному положенні в полі стовпчиків кадру даних - r

Як спірити strplit над кількома стовпцями в R - r, цикли, strsplit

Спліт стовпця в кадрі даних в R на символі '%' - r, кадр даних

Видалення стовпця, характеризуючи значення в R [дублікат] - r, кадр даних, кілька стовпців

Додайте Dataframe в Pandas в межах функції - python, pandas, frame

Зменшення даних каркасу Pandas до іншого кадру даних - python, pandas, dataframe, multiple columns

Видалити постійний стовпець panda dataframe - python, pandas, dataframe

Планшет у форматі Pandas у флязі [дублікат] - пітон, панда, фляга

Колонка даних з двома різними назвами - apache-spark, apache-spark-sql