Aide à la programmation, réponses aux questions / r / Régression avec de nouveaux niveaux de facteur dans l'ensemble de test - comment ignorer correctement l'erreur - r, gestion des erreurs, régression, forêt aléatoire, données catégorielles

Régression avec nouveaux niveaux de facteur dans l'ensemble de tests - comment ignorer normalement les erreurs - r, traitement des erreurs, régression, forêt aléatoire, données catégorielles

Y a-t-il de toute façon pour R d'ignorer "gracieusement"des erreurs qui feraient normalement échouer complètement la prédiction lorsqu'il y a de nouveaux niveaux de facteur dans l'ensemble de test? Normalement, s'il n'y a qu'une seule valeur incorrecte, l'opération entière ne fonctionne pas

Pour que les prédictions se produisent s'il y a des valeurs valides, mais quand il y a de nouveaux niveaux de facteur, une erreur se produit?

exemple vraiment merdique mais ... voici ce à quoi je veux en venir

  library(randomForest)
df=mtcars
df$vs=99
df[1,8]=0  # vs column
df$vs=factor(df$vs)
mtcars$vs=factor(mtcars$vs)

fit=lm(mpg~., data=mtcars)
# fit above works with explanation given below, but fit2 fails with randomforest?  why?
fit2 = randomForest(mpg~., data=mtcars)
df$help=predict(fit, df)   #  first row should work others should error gracefully maybe with a NA?

La première réponse que j'ai eue a été excellente. Cependant, il échoue toujours pour un exemple moins simpliste avec randomForest ci-dessus.

Réponses:

3 pour la réponse № 1

Vous pourriez utiliser un tryCatch retourner un NA lors de la prédiction.

Pour une seule ligne:

tryCatch(predict(fit, bad_df[1,]),
error=function(e) NA))

Pour toutes les lignes:

sapply(1:nrow(bad_df),
function(i)
tryCatch(predict(fit, bad_df[i,]),
error=function(e) NA))

Une alternative consiste à modifier votre ensemble de données. En gros, les facteurs de votre ensemble de données qui ne correspondent pas à votre fit l'objet est défini sur NA:

for(i in 1:length(fit$xlevels)) {
bad_values = which(!(bad_df[,names(fit$xlevels)[i]] %in% fit$xlevels[[i]]))
bad_df[, bad_values] = NA
}

questions connexes

lignes directrices pour gérer les valeurs de caractéristiques catégorielles manquantes dans le régresseur de forêt aléatoire - scikit-learn, random-forest

erreur glmnet pour la régression logistique / binomiale - r, régression-logistique, glmnet

Conversion d'un facteur à 2 niveaux en valeurs binaires 0/1 dans R [fermé] - r, binaire, facteur r

R - Forêt aléatoire et plus de 53 catégories - r, forêt aléatoire

Variables factorielles en r - r, statistiques, glm, données catégorielles

Erreur dans y - ymean: argument non numérique de l'opérateur binaire randomForest R - r, matrice, statistiques, random-forest

Pourquoi convertir des nombres en facteurs lors de la modélisation - r, régression, data-science, data-analysis

Matrice d'erreur dans la confusion: les données et les facteurs de référence doivent avoir le même nombre de niveaux - r, apprentissage automatique, intelligence artificielle, classification, régression linéaire

Termes d'interaction mixtes dans un modèle linéaire - r, régression linéaire, lm, interaction

Régression logistique utilisant des boucles for dans R [dupliquer] - r, régression-logistique

importance de la classe pour la forêt aléatoire en r - r, classification, forêt aléatoire

Appliquer des coefficients de régression ayant une réponse par facteur à de nombreuses entrées par facteur dans un cadre de données en régression linéaire R-r

Comment puis-je obtenir la fonction de densité de probabilité à partir d'une forêt aléatoire de régression? - r, forêt aléatoire, densité de probabilité

Jeu de données d'apprentissage déséquilibré et modèle de régression - r, apprentissage automatique, régression, forêt aléatoire

Données catégorielles ordinales dans la régression - python, apprentissage automatique, scikit-learn, données catégorielles

Comment extraire le prédicteur de régression de Scikit-learn à implémenter en C ++? - python, c ++, scikit-learn, régression, random-forest

Test F de régression sans les données brutes - mathématiques, statistiques, régression

Problème avec la génération PMML de forêt aléatoire en R - apprentissage automatique, classification, r, forêt aléatoire

Erreur dans sort.list (y): entrée non valide 'Accessoires de bureau Eldon Imàge®, clair' dans 'utf8towcs' - régression logistique

Comment gérer les caractéristiques catégorielles de la dernière Random Forest dans Spark? - apache-spark, apache-spark-mllib, random-forest, arbre de décision, ingénierie des fonctionnalités