Quiero usar word_tokenize, pos_tag, FreqDist
. No quiero descargar todo nltk
por defecto. Quiero usar nltk.download(info_or_id="")
. ¿Qué opciones debo poner en info_or_id
para obtener el etiquetado POS y su frecuencia. Etiquetado POS - Penn Treebank POS.
Respuestas
0 para la respuesta № 1Si nos fijamos en los cuerpos. http://www.nltk.org/nltk_data/ cada descripción incluye su id, por ejemplo, marrón, wordnet, book_grammars. Lo que elija depende de usted, depende de su aplicación. Busque un cuerpo etiquetado, por ejemplo, Brown incluye POS, tendrá que mirar cada uno, supongo, para ver. Treebank menciona a Penn Treebank (id treebank), también a Sinica Treebank (id sinica_treebank). Vea a continuación el encabezado Corpora analizada aquí. http://www.nltk.org/howto/corpus.html
0 para la respuesta № 2
Tu pregunta confunde la nltk
sí con nltk_data
. No se puede descargar solo una parte del nltk(aunque podría recortarlo manualmente, con cuidado, si necesita ahorrar espacio). Pero creo que estás tratando de evitar descargar todos los datos de nltk. Como @barny escribió, puedes ver las identificaciones de diferentes recursos cuando abres la interfaz interactiva. nltk.download()
ventana.
Para utilizar el marcador de posición treebank, necesita sus mesas de entrenamiento en escabeche (no el corpus de treebank); Los encontrarás en la pestaña "Modelos" debajo del ID
maxent_treebank_pos_tagger
. (Por lo tanto:nltk.download("maxent_treebank_pos_tagger")
.los
FreqDist
La clase no tiene ni necesita ningún modelo entrenado.Tampoco lo hace
word_tokenize
, que toma una oración como una sola cadena y la divide en palabras. Sin embargo, es probable que necesites el modelo parasent_tokenize
, que rompe un texto más largo en oraciones. Eso es manejado por el tokenizador de oraciones "Punkt", y puede descargar su modelo connltk.download("punkt")
.
PD. Para uso general, recomiendo descargar todo en la colección "libro", es decir, nltk.download("book")
. Es solo una fracción del total, y te permite hacer la mayoría de las cosas sin tener que batallar de vez en cuando para descubrir qué es lo que falta.