/ / Tesseract - entraînement - ocr, tesseract

Tesseract - entraînement - ocr, tesseract

J'essaie d'apprendre quelque chose du tesseract.

J'utilise jTessBoxEditor et Serak.

Je commence par en créer.txt qui ont par exemple 10 000 caractères et qui sont séparés par un espace. J'utilise cela comme entrée pour jTessBoxEditor dans le générateur TIFF / BOX. Cela crée pour moi des boîtes et des images .tiff.

Maintenant, je vérifie les cases et je vois qu'elles sont correctes. Donc je l'utilise dans Serak et traing tesseract et je crée des xxx.traineddata.

Maintenant, je veux vérifier les résultats. Donc, je crée un petit fichier .txt par exemple avec 100 caractères séparés par un espace, mais tous sont très similaires (le fichier contient quelque chose comme 5 S 5 S 0 O 2 Z et ainsi de suite.). Maintenant, je crée .tiff avec la même approche que lors de l'apprentissage, j'utilise donc jTessBoxEditor, la même police et je génère un nouveau fichier .tiff. Ensuite, dans Serak, j'essaye de combiner ce nouveau fichier .tiff et le résultat est que 0 est mélangé avec O, 5 avec S, etc.

Qu'est-ce que je fais mal?

Réponses:

0 pour la réponse № 1

Etes-vous sûr que la nouvelle police crééedans le fichier .traineddate? Vous devez ajouter la police dans le fichier font-properties, exécuter unicharset_extractor sur les polices, puis mftraining et cntraining, puis tout combiner pour obtenir le fichier .traineddata obtenu. J'ai eu une situation similaire à celle que vous avez et je suppose que l'erreur est probablement dans la création du fichier .traineddata. Une fois que votre nouvelle police est insérée, tesseract ne devrait plus avoir aucun problème à déterminer quels sont les caractères des fichiers que vous venez de l’entraîner.