Aide à la programmation, réponses aux questions / r / détermination du pourcentage de réponses identiques pour plusieurs variables - r, base de données, analyse, data-science

déterminer le pourcentage de réponses identiques pour plusieurs variables - r, base de données, analyse, data-science

J'ai un jeu de données avec de nombreuses variables, y compris26 variables, toutes avec des valeurs allant de 1 à 12. Je souhaite supprimer toutes les lignes contenant au moins 80% des valeurs identiques (plus de 21 1 ", ou plus de 21 2", etc.). J’ai du mal à trouver un moyen de faire cela dans R, et j’apprécierais vraiment quelques idées pour aborder ce problème!

quand je lance le

out <- df1[apply(df1, 1, function(x) mean(x == Mode(x)) <= 0.8),]

code sur le sous-ensemble de variables d'un groupe, les valeurs des variables de l'autre groupe deviennent toutes NA

Voici 60 lignes de l'ensemble de données avec 5 questions des trois conditions incluses: https://nofile.io/f/gBWymjYmQ2O/dataset

Mon résultat attendu est df1 (qui a plus de 100 variables) avec les lignes contenant plus de 80% de réponses identiques aux 26 variables d'intérêt supprimées.

Réponses:

1 pour la réponse № 1

Nous pouvons parcourir les lignes du jeu de données, obtenir la fréquence des valeurs, vérifier si la valeur la plus fréquente n'est pas supérieure à 80% pour créer une logique. vector et supprimer les lignes en fonction de cela

Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}

out <- df1[apply(df1, 1, function(x)  mean(x == Mode(x)) <= 0.8),]

Mettre à jour

Sur la base du jeu de données du PO, il y a des NA dans les lignes et certaines lignes ont toutes des NA. Nous pouvons modifier le code pour supprimer les lignes contenant toutes les NA et celles ayant 80% de valeurs identiques

Mode <- function(x) {
ux <- unique(x[!is.na(x)])
ux[which.max(tabulate(match(x, ux)))]
}

df1[ apply(df1, 1, function(x)  mean(x == Mode(x), na.rm = TRUE) <= 0.8 & !all(is.na(x))),]

Les données

set.seed(24)
df1 <- as.data.frame(matrix(sample(1:12, 26 *20, replace = TRUE), ncol = 26))
df1[c(1, 3, 7),1:21] <- 5

questions connexes

Rails regroupant des données dans un objet - ruby-on-rails, ruby, ruby-on-rails-3.2

Méthodes d'analyse multivariée dans Scikit-learn - python, scikit-learn, statistiques

Afficher les métriques RDS pour plusieurs instances - python, amazon-web-services, boto, amazon-rds

problem_definition: Je veux écrire un bloc pl / SQL pour saisir les marques de trois sujets et afficher le même résultat (en pourcentage) - plsql

lien php avec plusieurs variables avec la même valeur - php, sql

Transformation de données WS02 - boucles, wso2, wso2esb, esb, mappage de données

jQuery - Animation de backgroundSize avec des attributs de données - jquery, cet attribut custom-data

Détermination de la complexité temporelle et spatiale du programme - Java, algorithme, complexité temporelle, big-o, complexité spatiale

Ajouter un tableau au tableau Objets - javascript, tableaux, boucles, objets, underscore.js

ignorer un groupe avec la fonction d'imbrication D3 - javascript, d3.js

Calculer le pourcentage dans un tableau javascript - javascript

Totaliser et stocker les nombres de données précédentes (valeurs) dans jQuery - javascript, jquery, html

Obtenir un attribut d'un objet JSON [fermé] - javascript, regex

Que se passe-t-il si je soumets le travail plusieurs fois dans IBM Watson IoT Driver Insights? - comportement ibm-cloud, iot, iot-driver

obtention de statistiques à partir de bases de données SQL HTML - html, sql

Application MVC C #, pourcentage de la zone de texte par rapport à la sauvegarde de la base de données - C #, asp.net-mvc

Comment utiliser les données d'une base de données avec MS Bot - botframework, luis

Opérateur manquant dans WinPE - fichier de traitement par lots, windows-7, winpe

Compteur de progression de lot - batch-file, cmd

Ordre par ne fonctionne pas avec union, base de données Microsoft Access, asp.net - asp.net, ms-access, commande, union