/ / Etiquetado POS - NLTK- Python - python, nltk

Etiquetado POS - NLTK- Python - python, nltk

Quiero usar word_tokenize, pos_tag, FreqDist. No quiero descargar todo nltk por defecto. Quiero usar nltk.download(info_or_id=""). ¿Qué opciones debo poner en info_or_id para obtener el etiquetado POS y su frecuencia. Etiquetado POS - Penn Treebank POS.

Respuestas

0 para la respuesta № 1

Si nos fijamos en los cuerpos. http://www.nltk.org/nltk_data/ cada descripción incluye su id, por ejemplo, marrón, wordnet, book_grammars. Lo que elija depende de usted, depende de su aplicación. Busque un cuerpo etiquetado, por ejemplo, Brown incluye POS, tendrá que mirar cada uno, supongo, para ver. Treebank menciona a Penn Treebank (id treebank), también a Sinica Treebank (id sinica_treebank). Vea a continuación el encabezado Corpora analizada aquí. http://www.nltk.org/howto/corpus.html


0 para la respuesta № 2

Tu pregunta confunde la nltk sí con nltk_data. No se puede descargar solo una parte del nltk(aunque podría recortarlo manualmente, con cuidado, si necesita ahorrar espacio). Pero creo que estás tratando de evitar descargar todos los datos de nltk. Como @barny escribió, puedes ver las identificaciones de diferentes recursos cuando abres la interfaz interactiva. nltk.download() ventana.

  1. Para utilizar el marcador de posición treebank, necesita sus mesas de entrenamiento en escabeche (no el corpus de treebank); Los encontrarás en la pestaña "Modelos" debajo del ID maxent_treebank_pos_tagger. (Por lo tanto: nltk.download("maxent_treebank_pos_tagger").

  2. los FreqDist La clase no tiene ni necesita ningún modelo entrenado.

  3. Tampoco lo hace word_tokenize, que toma una oración como una sola cadena y la divide en palabras. Sin embargo, es probable que necesites el modelo para sent_tokenize, que rompe un texto más largo en oraciones. Eso es manejado por el tokenizador de oraciones "Punkt", y puede descargar su modelo con nltk.download("punkt").

PD. Para uso general, recomiendo descargar todo en la colección "libro", es decir, nltk.download("book"). Es solo una fracción del total, y te permite hacer la mayoría de las cosas sin tener que batallar de vez en cuando para descubrir qué es lo que falta.