/ / Texte non structuré en données structurées - python, nlp, données structurées

Texte non structuré en données structurées - python, nlp, données structurées

Je cherche des références (tutoriels, livres, littérature académique) concernant la structuration d'un texte non structuré de manière similaire au bouton d'ajout rapide du calendrier Google.

Je comprends que cela rentre dans la catégorie PNL, mais je ne suis intéressé que par le processus allant de quelque chose comme "Levi jeans size 32 A0b293".

to: marque: Levi, taille: 32, catégorie: Jeans, code: A0b293

J'imagine qu'il s'agirait d'une combinaison d'analyses lexicales et de techniques d'apprentissage automatique.

Je suis plutôt agnostique en termes de langage mais si poussé préférerait des références python, Matlab ou C ++

Merci

Réponses:

7 pour la réponse № 1

Vous devez fournir davantage d'informations sur la source du texte (le Web? Saisie de l'utilisateur?), Le domaine (s'agit-il uniquement de vêtements?), Le formatage et le vocabulaire potentiels ...

En supposant le pire des scénarios, vous devez commencer à apprendre la PNL. Un très bon livre gratuit est la documentation de NLTK: http://www.nltk.org/book . C'est aussi une très bonne introduction à Pythonet le SW est gratuit (pour divers usages). Soyez averti: la PNL est difficile. Cela ne fonctionne pas toujours. Ce n’est pas amusant parfois. L’état de la technique n’est pas à la hauteur de ce que vous imaginez.

En supposant un meilleur scénario (votre texte est semi-structuré) - un bon outil gratuit est pyparsing. Il existe un livre, de nombreux exemples et le code résultant est extrêmement attrayant.

J'espère que ça aide...


1 pour la réponse № 2

Peut-être regarder "Intelligence collective" de Toby Segaran. Il me semble que je me souviens avoir abordé les bases de ceci dans un chapitre.


1 pour la réponse № 3

Après quelques recherches, j’ai trouvé que ce problème est communément appelé Extraction de l'information et ont amassé quelques papiers et les a stockés dans une collection de Mendeley

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

Comme le souligne Tai Weiss, NLTK pour le python est un bon point de départ et ce chapitre du livre, se penche spécifiquement sur l'extraction d'informations


0 pour la réponse № 4

Si vous ne travaillez que dans des cas comme celui que vous avez cité, il vaut mieux utiliser des règles manuelles, prévisibles à 100% et couvrant 90% des cas où il pourrait être confronté à une production.

Vous pouvez énumérer des listes de toutes les marques et catégories possibles et détecter celles qui, dans une chaîne d’entrée, car il n’ya généralement que très peu d’intersection dans ces deux listes.

Les deux autres pourraient facilement être détectés et extraits à l'aide d'expressions régulières. (Les chiffres de 1 à 3 chiffres sont toujours des tailles, etc.)

Votre domaine de problèmes ne semble pas assez important pour justifier une approche plus lourde telle que l’apprentissage statistique.