/ / Perché non avvicinarsi alla classificazione attraverso la regressione? - apprendimento automatico

Perché non si tratta di affrontare la classificazione attraverso la regressione? - apprendimento automatico

Un materiale di apprendimento automatico ha detto che è un maleidea di affrontare il problema della classificazione attraverso la regressione. Ma penso che sia sempre possibile fare una regressione continua per adattare i dati e troncare la previsione continua per produrre una classificazione discreta. Quindi perché è una cattiva idea?

risposte:

11 per risposta № 1

Se stai facendo la classificazione, vuoi farloottimizzare qualcosa relativo a classificazioni errate. Ti interessa solo prevedere la classe giusta. Quando si esegue la regressione, si desidera ridurre al minimo alcune misure di distorsione tra la previsione e il valore effettivo. L'errore al quadrato medio è una funzione di penalità comune per la regressione.

Immagina di ottimizzare i parametri del tuoregressore che finirà per fare la classificazione. Ecco un esempio che è ovviamente di classe 1, ma la cui etichetta è molto, molto grande. Al fine di ridurre al minimo la perdita in questo esempio, è necessario spostare molto i pesi per rendere estrema la previsione per questo esempio. Tuttavia, ora il confine della tua classificazione si è appena spostato molto, danneggiando la precisione della tua classificazione. Hai compensato eccessivamente quando non ce n'era bisogno.

Puoi visualizzare questo grafico come la quantità che sposterai i tuoi pesi in funzione di come hai predetto erroneamente un esempio.

Grafico della funzione di perdita

La maggior parte delle funzioni di perdita qui sono superiorisulla perdita di classificazione errata. I modelli che ottimizzano i limiti superiori sulla classificazione errata classificano bene. L'utilizzo della regressione per la classificazione è simile alla rilevazione della perdita di errore quadrata e essenzialmente alla rappresentazione errata di ciò che si desidera ottimizzare. Ciò corrisponde allo spostamento verso l'alto verso il lato destro del grafico nella perdita per errore quadrato, anche se la classificazione sta diventando sempre più sicura e le buone funzioni di perdita della classificazione sono tutte 0 o vanno lì.

Immagine presa dall'eccellente Elementi di teoria dell'apprendimento statistico.