Pomoc w programowaniu, odpowiedzi na pytania / r / Optymalizacja / alternatywa ddply, transform i na.omit - r, optymalizacja, transformacja, plyr

Optymalizacja / alternatywa ddply, transform i na.omit - r, optymalizacja, transformacja, plyr

Mam następującą sytuację:

library(TTR)
library(scales)
library(dplyr)
library(tidyr)

#prepare data
df = data.frame(X=seq.int(100000), high = runif(100000, 1, 100), low = runif(100000, 1, 100), close = runif(100000, 1, 100))

#some calculation
df$cci14 = rescale(CCI(df[,c("high","low","close")], n=14, maType=SMA), to=c(0,100), from=c(-100,100))

#filtering
df$select = df$cci14 >=100 | lag(df$cci14)>=100 | lead(df$cci14)>=100 | df$cci14 <=0 | lag(df$cci14)<=0 | lead(df$cci14)<=0


ff = df %>% filter(select) %>% group_by(group1 = cumsum(c(1, diff(X) != 1))) %>% dplyr::mutate(len = NA) %>% dplyr::mutate(Y = seq(n())) %>% spread(Y, cci14) %>% ungroup()

#sync column values high,low,close
ff = (ff %>% group_by(group1) %>% mutate(X=first(X)) %>% mutate(high=max(high))  %>% mutate(low=min(low))   %>% mutate(close=last(close))  )

library(plyr) # have to detach afterward, without this, ddply runs with unexpected result

#this one very slow, any alternative?
ff %>% group_by(group1)
%>% ddply(.(group1), transform, `1`=na.omit(`1`)[1])
%>% ddply(.(group1), transform, X2=na.omit(X2)[1])
%>% ddply(.(group1), transform, X3=na.omit(X3)[1])
%>% ddply(.(group1), transform, X4=na.omit(X4)[1])
%>% ddply(.(group1), transform, X5=na.omit(X5)[1])
%>% ddply(.(group1), transform, X6=na.omit(X6)[1])
%>% ddply(.(group1), transform, X7=na.omit(X7)[1])
%>% ddply(.(group1), transform, X8=na.omit(X8)[1])
%>% ddply(.(group1), transform, X9=na.omit(X9)[1])
%>% ddply(.(group1), transform, X10=na.omit(X10)[1])
%>% ddply(.(group1), transform, X11=na.omit(X11)[1])
%>% ddply(.(group1), transform, X12=na.omit(X12)[1])
%>% ddply(.(group1), transform, X13=na.omit(X13)[1])
%>% ddply(.(group1), transform, X14=na.omit(X14)[1])
%>% ddply(.(group1), transform, X15=na.omit(X15)[1])
%>% ddply(.(group1), transform, X16=na.omit(X16)[1])
...
and more column depends on data frame.

Ostatnia część, ddply działa bardzo wolno, zwłaszcza przy generowaniu wielu kolumn.

Pytanie, jakieś inne opcje / sugestie, aby je zoptymalizować? i jak zastosować we wszystkich kolumnach?

Odpowiedzi:

0 dla odpowiedzi № 1

Właśnie znaleziono, ale przy użyciu biblioteki (data.table)

setDT(ff)[, lapply(.SD, na.omit) , by = group1]

0 dla odpowiedzi nr 2

Inną opcją jest dplyr

library(dplyr)
ff %>%
group_by(group1) %>%
mutate_each(funs(na.omit))

Powiązane pytania

Klonowanie obiektu svg (linia) - svg

uzyskać maksymalne i minimalne wartości podgrupy kolumn w ramce danych w ddply w R - r, plyr

Średni według poziomu czynnika dla ostatnich trzech rzędów - r, plyr

Identyfikacja grup osób, jeśli występują warunkowo w jednym z nich (następny) - r, ramka danych, transformacja, plyr

Optymalizacja przez Grupę własnej funkcji w r - r, optymalizacja, plyr

jak utworzyć kolumnę zawierającą maksymalną wartość innej kolumny w R? [duplicate] - r, data.table, plyr

Jak mogę użyć funkcji w serwerze.R za pomocą R, błyszczący? - r, błyszczący, plyr

Użycie ddply zamiast pętli - odejmowanie dla poszczególnych kategorii - r, loops, plyr

Oblicz przyrosty zmiennej w R - r, funkcja, pętle, plyr

Dodaj kolumnę zlicza inną [duplicate] - r

Różnica między funkcją a operatorem - r

ddply () nie wygląda na podzbiór w mojej ramce danych - r, plyr

porównanie dwóch liczb całkowitych w R: "dłuższa długość obiektu nie wielokrotność krótszej długości obiektu" ddply - r, ramka danych, plyr

zastosowanie średniej kroczącej według grup w R - r, średnia ruchoma

Tworzenie nowej kolumny za pomocą polecenia ddply w pakiecie R "plyr" - r, plyr

Podsumuj określone wiersze na podstawie nazwy w R i Utwórz nową kolumnę - r

Dodanie identyfikatora lub kolumny indeksu dla podzbiorów plyr [duplicate] - r, plyr

Błąd obiektu nie znaleziono z ddply wewnątrz funkcji - r, function, scope, plyr

Skip NA wartości przy użyciu "zabawa = najpierw"-r, funkcja, dataframe

-fno-omit-frame-pointer bez optymalizacji - c ++, optymalizacja, wskaźniki, ramka