Aide à la programmation, réponses aux questions / r / dplyr: Comment utiliser group_by dans une fonction? - r, dplyr

dplyr: Comment utiliser group_by dans une fonction? - r, dplyr

Je veux utiliser le dplyr::group_by fonction dans une autre fonction, mais je ne sais pas comment passer les arguments à cette fonction.

Quelqu'un peut-il fournir un exemple de travail?

library(dplyr)
data(iris)
iris %.% group_by(Species) %.% summarise(n = n()) #
## Source: local data frame [3 x 2]
##      Species  n
## 1  virginica 50
## 2 versicolor 50
## 3     setosa 50

mytable0 <- function(x, ...) x %.% group_by(...) %.% summarise(n = n())
mytable0(iris, "Species") # OK
## Source: local data frame [3 x 2]
##      Species  n
## 1  virginica 50
## 2 versicolor 50
## 3     setosa 50

mytable1 <- function(x, key) x %.% group_by(as.name(key)) %.% summarise(n = n())
mytable1(iris, "Species") # Wrong!
# Error: unsupported type for column "as.name(key)" (SYMSXP)

mytable2 <- function(x, key) x %.% group_by(key) %.% summarise(n = n())
mytable2(iris, "Species") # Wrong!
# Error: index out of bounds

Réponses:

52 pour la réponse № 1

Pour la programmation, group_by_ est la contrepartie de group_by:

library(dplyr)

mytable <- function(x, ...) x %>% group_by_(...) %>% summarise(n = n())
mytable(iris, "Species")
# or iris %>% mytable("Species")

qui donne:

     Species  n
1     setosa 50
2 versicolor 50
3  virginica 50

Mettre à jour Au moment où cela a été écrit dplyr utilisé %.% qui est ce qui était à l'origine utilisé ci-dessus, mais maintenant %>% est favorisée, nous avons donc changé ci-dessus pour que cela reste pertinent.

Mise à jour 2 regroup est maintenant obsolète, utilisez group_by_ à la place.

Mise à jour 3 group_by_(list(...)) devient maintenant group_by_(...) dans la nouvelle version de dplyr selon le commentaire de Roberto.

Mise à jour 4 Ajout d'une variation mineure suggérée dans les commentaires.

Mise à jour 5: Avec rlang / tidyeval, il est maintenant possible de faire ceci:

library(rlang)
mytable <- function(x, ...) {
group_ <- syms(...)
x %>%
group_by(!!!group_) %>%
summarise(n = n())
}
mytable(iris, "Species")

ou en passant Species sans évaluation, c'est-à-dire sans guillemets:

library(rlang)
mytable <- function(x, ...) {
group_ <- quos(...)
x %>%
group_by(!!!group_) %>%
summarise(n = n())
}
mytable(iris, Species)

5 pour la réponse № 2

METTRE À JOUR: À partir de dplyr 0.7.0, vous pouvez utiliser tidy eval pour accomplir cela.

Voir http://dplyr.tidyverse.org/articles/programming.html pour plus de détails.

library(tidyverse)
data("iris")

my_table <- function(df, group_var) {
group_var <- enquo(group_var)      # Create quosure
df %>%
group_by(!!group_var) %>%        # Use !! to unquote the quosure
summarise(n = n())
}

my_table(iris, Species)

> my_table(iris, Species)
# A tibble: 3 x 2
Species     n
<fctr> <int>
1     setosa    50
2 versicolor    50
3  virginica    50

2 pour la réponse № 3

Moche comme ils viennent, mais elle travaille:

mytable3 <- function(x, key) {
my.call <- bquote(summarise(group_by(.(substitute(x)), NULL), n = n()))
my.call[[2]][[3]] <- as.name(key)
eval(my.call, parent.frame())
}
mytable3(iris, "Species")
# Source: local data frame [3 x 2]
#
#      Species  n
# 1  virginica 50
# 2 versicolor 50
# 3     setosa 50

Il y a presque certainement des cas qui provoqueront une rupture, mais vous voyez l'idée. Je ne pense pas que vous puissiez vous débrouiller avec cet appel. Une autre chose qui a fonctionné mais qui a été encore plus laide est:

mytable4 <- function(x, key) summarise(group_by(x, x[[key]]), n = n())

questions connexes

Comment puis-je prendre la variance d'un sous-ensemble d'un vecteur? - r, dplyr

Régression progressive avec dplyr et lsfit - r, dplyr, régression, zoo

dplyr mutate (): ignore les valeurs si le groupe est NA - r, dplyr

Erreur étrange avec lapply et dplyr / magrittr - r, dplyr, magrittr

transform () pour ajouter des lignes avec dplyr () - r

dplyr: Comment utiliser group_by dans une fonction? - r, dplyr

Comment grouper par (tout ()) - r, dplyr

Concaténer des chaînes en utilisant group_by et résumer en r [duplicate] - r, dplyr

R - groupe de données d'une variable [duplicate] - r, dplyr, résumés de groupes

Essayer de comprendre la fonction de dplyr - group_by - r, dplyr

groupe dplyr par plusieurs variables résumées par plusieurs variables - r, dplyr, rstudio, tidyverse

passer des noms de colonnes en tant que chaînes à group_by et résumer en dplyr - r, dplyr, résumé, rlang, quosure

Comportement inattendu dans dplyr :: group_by_ et dplyr :: summary_ - r, dplyr

Pourquoi ne pas résumer ou muter ne fonctionne pas avec group_by quand je charge plyr après dplyr? - r, dplyr, plyr, r-faq

filtre dplyr: récupère les lignes avec un minimum de variable, mais seulement le premier si plusieurs minima - r, dplyr

Soustraire la valeur d'une ligne spécifique des autres valeurs dans un dplyr group_by () tbl -r, dplyr

Comment multiplier une variable de chaîne n-fois par la valeur d'une autre variable, à l'intérieur d'une fonction group_by? - r, group-by, dplyr, résumer

Utiliser dplyr dans R pour créer plusieurs sommaires [dupliquer] - r

Utilisation de plyr :: mapvalues avec dplyr - r, dataframe, plyr, dplyr

Erreurs multiples utilisant dplyr: objet introuvable et ne pouvant pas trouver de fonction - dplyr