/ / Come gestire al meglio una funzione relativa aquale tipo di esperto ha etichettato i dati che diventano non disponibili al punto di classificazione? - apprendimento automatico, classificazione, foresta casuale, selezione delle caratteristiche

Come affrontare al meglio una caratteristica relativa a cosatipo di esperto etichettato i dati che diventano non disponibili al punto di classificazione? - apprendimento automatico, classificazione, foresta casuale, selezione delle caratteristiche

Essenzialmente ho un set di dati, che ha un vettore di funzionalità e un'etichetta che indica se si tratta di spam o non spam.

Per ottenere le etichette per questi dati, sono stati usati 2 distinti tipi di esperti utilizzando diversi approcci per valutare l'oggetto, il tipo di esperto utilizzato è diventato anche una caratteristica del vettore.

La formazione e il test su una parte separata dei dati hanno raggiunto un'accuratezza elevata utilizzando un algoritmo Foresta casuale.

Tuttavia, ora è chiaro che la funzione che descrive l'esperto che ha realizzato l'etichetta non sarà disponibile in un ambiente live. Quindi ho provato un certo numero di approcci per riflettere questo:

  1. Rimuovere la funzionalità dal set e riaddestrare e testare
  2. Suddividere i dati in 2 set distinti in base alla funzione, quindi allenare e testare 2 classificatori separati
  3. Per i dati di test, impostare la funzione in questione su tutti allo stesso valore

Con tutti e 3 gli approcci, i classificatori sono passati dall'essere estremamente accurati, a essere praticamente inutili.

Quindi sto cercando qualche consiglio o intuizione sul motivo per cui questo è accaduto e su come potrei avvicinarmi a risolverlo in modo da recuperare un po 'dell'accuratezza che stavo vedendo in precedenza?

Per essere chiari, non ho alcun background in machine learning o statistiche e sto semplicemente usando una libreria di codice c # di terze parti come una scatola nera per ottenere questi risultati.

risposte:

0 per risposta № 1

Sembra che tu sia completamente sopraffatto con la funzione "chi ha etichettato che cosa" (e le combinazioni di questa funzionalità con altre funzionalità). Puoi scoprire con sicurezza ispezionando la foresta casuale funzionalità importanze e controllare se la funzione di annotatore è in alto. Un altro modo per scoprirlo è lasciare che gli annotatori controllino a vicenda le annotazioni e calcolino un punteggio di accordo come Il kappa di Cohen. Un valore basso, ad esempio inferiore a 0,5, indica un disaccordo tra gli annotatori, il che rende molto difficile l'apprendimento automatico.

Dato che la funzione non sarà disponibile al momento del test, non c'è un modo semplice per ripristinare le prestazioni.