Ajuda na programação, respostas a perguntas / r / Maneira eficiente de escalar a coluna com base no valor em outra coluna no dataframe R - r, dataframe, scale

Modo eficiente de escalar coluna baseado em valor em outra coluna em R dataframe - r, dataframe, escala

Eu quero escalar valores na coluna de um dataframe com base em valores em outra coluna. Por exemplo, aqui está um exemplo simples

d<-data.frame(x=runif(5,0,10),y=sample(c(1,2),size=5,replace=TRUE))

dá a saída:

         x  y
1 1.0895865 2
2 0.8261554 2
3 5.3503761 2
4 3.3940759 1
5 6.2786637 1

Eu quero escalar os valores x com base nos valores y, então o que eu quero é ter:

(x|y=1 - average(x"s | y=1))/std.dev(x"s|y=1)

substitua os valores x em d pelos valores escalados, da mesma forma para o x valores com y=2.

O que fiz até agora é um pouco desajeitado:

     d1<-subset(d,y==1)
d2<-subset(d,y==2)

d1$x<-(d1$x-mean(d1$x))/sd(d1$x)
d2$x<-(d2$x-mean(d2$x))/sd(d2$x)

e depois vincular todos os resultados em um grande quadro de dados, mas isso é um pouco tedioso, pois meus dados reais têm 50 valores diferentes para y e eu gostaria de fazer isso para várias colunas (diferentes).

Respostas:

2 para resposta № 1

Você pode facilmente fazer isso usando group_by e mutate de dplyr pacote:

require(dplyr)
d %>%
group_by(y) %>%
mutate(x = (x - mean(x)) / sd(x))

1 para resposta № 2

Essa tarefa geralmente é executada por group by dentro dplyr e usando scale

 library(dplyr)
d %>% group_by(y) %>% mutate(x2=scale(x))

0 para resposta № 3

Podemos usar data.table. Nós convertemos o "data.frame" em "data.table" (setDT(d)), agrupados por "b", atribua (:=) a scale de "x" a "x2".

 setDT(d)[, x2 := scale(x) , by = y]

Perguntas relacionadas

Como consultar a presença de um elemento dentro de uma coluna do Dataframe do Spark que contém um conjunto? - sql, scala, apache-spark, spark-dataframe

O dataframe [, -1] e o dataframe [-1] são os mesmos? - r, dataframe

adicionando uma coluna em R a um dataframe [duplicado] - r, dataframe, categoria

Juntando dois dataframes desiguais - python, pandas

Cache de redefinição do DataFrame do Pandas - python, pandas, numpy

Como adicionar string como valor para nova coluna para dataframe - python, pandas

Usando pandas.DataFrame.at () em um loop for - python, lista, pandas, para loop, dataframe

panda dataframe remover coluna constante - python, pandas, dataframe

O dataframe do Pandas cria uma nova coluna com base na lista de tuplas - python, pandas, dataframe, python-3.4

Python 3.4 - Pandas - Reorganizando linhas com base no valor de uma coluna de um Dataframe - python, python-3.x, pandas, dataframe

Python (Pandas) - Crie uma coluna combinando os valores da coluna em dataframe - python, pandas, dataframe

Como dividir duas colunas em um dataframe - python, r, pandas, dataframe

Como armazenar a lista em dataframe python - python, lista, dataframe

Altere o nome da coluna do dataframe no tempo de execução - python, pandas

Dataframe: se o valor na primeira coluna estiver em uma lista de strings, substitua a segunda coluna por valor - python, list, dataframe, replace, where

Como selecionar colunas altamente correlacionadas com uma coluna específica em um dataframe - python, pandas, correlação, tabular

Desempacotar um Dataframe de Vários Índices - Python, Dataframe, Stack

Coluna DataFrame calculada por uma condição de coluna - python, pandas, dataframe

Qual é a maneira mais eficiente de obter o tamanho máximo de uma coluna de string de um dataframe pandas, armazenado como um arquivo hdf5 - python-2.7, pandas, hdf5

Selecionando a chave do mapa como coluna no dataframe em faísca - apache-spark, spark-dataframe