/ / Comparação visual da distribuição entre os grupos: Como a escala é modificada para “gráficos assimétricos”? - r, plotagem, escala, distribuição

Comparação visual de distribuição entre grupos: Como a escala é modificada para “beans de feijão assimétricos”? - r, enredo, escala, distribuição

Encontrei recentemente o pacote R beanplot e a possibilidade oferecida de plotar a distribuição de dois subgrupos em um único gráfico (beanplot assimétrico especial) Você encontra uma descrição do pacote no Jornal do software estatístico e no cran.r-project.org.

Eu produzi um beanplot assimétrico usando o seguinte CÓDIGO:

library(psych)
library(beanplot)

var1 <-c(20,33,NA,39,NA,40,34,33,NA,38,NA,8,7,NA,NA,40,34,24,25,36,40,37,34,NA,35)
var2 <- c(1,0,1,1,1,0,1,0,1,NA,1,0,0,0,0,1,1,0,1,0,1,1,NA,0,1)
mydata<-data.frame(var1,var2)
table(mydata)

par(lend = 1, mai = c(0.8, 0.8, 0.5, 0.5))
beanplot(var1 ~ var2, data= mydata,  side = "both",log="",
what=c(1,1,1,0), border = NA, col = list("black", c("grey", "white")))
legend("bottomleft", fill =c("black", "grey"), legend = c("no", "yes"))

O gráfico produzido mostra bem a forma diferente da distribuição dos dois subgrupos ".

Beanplot assimétrico

PROBLEMA

A variável dependente é medida em uma escala que varia de 7 a 40. No entanto, o eixo y parece ir de -1 a +55.

Seria ótimo se alguém pudesse explicar como a escala é modificada, ou seja, o que é realmente plotado aqui. Existe uma maneira de plotar a distribuição usando a escala original?

Muitíssimo obrigado!

Respostas:

4 para resposta № 1

beanplot usa density. A densidade estimada pode dar massa a áreas além da faixa dos dados observados. Você pode tentar isso para ter uma idéia do que a densidade faz - plot(density(1:2))e você deve ver que está apenas tomando uma média de densidades gaussianas centradas nos pontos de dados (observe que você pode usar um kernel diferente como beanplot permite especificar um parâmetro do kernel). A escolha da variação desse gaussiano depende de você, mas, por padrão, parece que o beanplot usa bw.SJ com o método "dpi" para escolher a largura de banda.

Você pode usar o cutmin e o cutmax para controlar o intervalo que o gráfico de plotagem realmente representa, mas isso não altera a estimativa de densidade.