Pomoc w programowaniu, odpowiedzi na pytania / r / R Wydajny sposób tworzenia nowej ramki danych z unikalnych wierszy między dwiema ramkami danych - r, ramka danych, porównaj

R Wydajny sposób tworzenia nowej ramki danych z unikalnych wierszy między dwiema ramkami danych - r, ramka danych, porównaj

Potrzebuję utworzyć nową ramkę danych dwie istniejące ramki danych, w których nowa ramka danych jest w każdym rzędzie z pierwszej ramki danych, która nie znajduje się w drugiej ramce danych. Znalazłem kod tutaj używając funkcji scalania, która pozwoliła mi to zrobić w ten sposób. Zasadniczo, jeśli wynikowe połączenie ma wynik, wiersz znajduje się w ramce danych i nie dodaję go do mojego nowego:

for (j in 1:nrow(my.df)) {
if(nrow(merge(my.df[j,],sample.df))==0) {
test.df <- rbind(test.df,my.df[j,])
}
}

Problem polega na tym, że pętla for jest bardzo wolna. Czy istnieje bardziej wydajny sposób na zbudowanie ramki danych z uwagi na ograniczenia, które mam?

my.df

A B class
1 2 x
2 3 y
3 4 z

sample.df

A B class
1 2 x

test.df powinien wyglądać

A B class
2 3 y
3 4 z

Odpowiedzi:

2 dla odpowiedzi № 1

Za pomocą library(dplyr) możemy użyć anti_join():

anti_join(my.df, sample.df)
# Joining, by = c("A", "B", "class")
#   A B class
# 1 3 4     z
# 2 2 3     y

Jak wspomniano w @Gregor, możesz także konwertować swoje data.frames w data.tables z library(data.table) aby uzyskać dodatkową szybkość

Powiązane pytania

Dołącz kolumnę do ramki danych w Apache Spark 1.3 - scala, apache-spark, ramka danych

Używając R, znajdź liczbę wierszy w wielu ramkach danych i utwórz listę wartości - r

Funkcja do tworzenia nowej ramki danych z podzbiorów danych - r, pętla for, ramka danych, podzbiór

Dlaczego nie zastępuje kolumn poprawnie? df1 [i, b] <- df2 [i, b] [duplicate] - r

Tworzenie ramek danych z każdego wiersza elementu listy - r, list, ramka danych

Filtruj wiersze ramek danych zapisanych na liście i utwórz nową listę - r, listę, ramkę danych, filtrowanie

użycie pętli for do utworzenia listy ramek danych w R-r, liście, pętli for, ramce danych, unikatowej

Aggregate a data.frame bez funkcji - r, ramka danych, podsumowania

Scal dwie ramki danych, łącząc wektor - r, sortowanie, ramkę danych, scalanie, kolejność

wiążą wiele ramek danych dodając kolumnę z ich id [duplicate] - r, dataframe

R przeszukuje drugą ramkę danych na podstawie wartości w innej [duplicate] - r, ramce danych

Ignorowanie NA w ramce danych podczas wyszukiwania unikatowych wierszy - r, unique, na

Wybierz wiersze danych w ramce danych zawierającej element, który nie jest powtarzany (jest unikalny) [duplicate] - r, ramka danych, unikalna

Jak dodać kolumnę do ramki danych z wartościami innego na podstawie wielu warunków - r

R - usuwanie wierszy z ramki danych zgodnie z kolumną w innej ramce danych [duplikuj] - r, ramka danych, scalanie

porównaj nazwy kolumn i utwórz nową tabelę - r, dopasuj

Scalanie ramek danych w wierszach i kolumnowo w R - r, scalanie, powtarzanie, na

Kolejność wierszy w DataFrame po agregacji - python, apache-spark, pyspark, spark-dataframe

pandy: połączenie kilku ramek danych - python, pandy

Najlepszy sposób porównania pandasowej ramki danych z plikiem csv - python, panda, csv, ramka danych, porównanie