/ / Wznów parsowanie przy użyciu Solr i TIKA - parsowanie, solr, nlp, apache-tika

Wznów analizowanie za pomocą Solr i TIKA - parsowanie, solr, nlp, apache-tika

Przechodziłem przez to ślizgać się. Nie mam trudności ze zrozumieniem tego podejścia.

Moje dwa zapytania to:

  1. Jak Solr utrzymywać schemat semi-structured document lubić wznawia (takie jak imię i nazwisko, umiejętności, edukacja itp.)
  2. Mogą Apache TIKA wyodrębnić sekcję mądre informacje z plików PDF? Ponieważ każde CV będzie miało odmienne sekcje, jak zdefiniować wspólny schemat bytów?

Odpowiedzi:

0 dla odpowiedzi № 1
  1. Definiujesz schemat, aby uzyskać polaoczekujesz i możesz wyszukiwać w różnych polach na podstawie rodzaju zapytań, które chcesz wykonać. Możesz połączyć dowolne nieznane (tj. Nie jesteś pewny, gdzie należy) wartości do wspólnego pola wyszukiwania i sklasyfikować to pole niżej.

  2. Musisz przeanalizować odpowiedź Tiki (lub ainny parser plików PDF / docx). Samo użycie Tiki nie da automatycznej odpowiedzi dostosowanej do problemu, który próbujesz rozwiązać. Będzie dużo ręcznej analizy i próby zrozumienia, co jest z przesłanego dokumentu, a następnie wstawienie odpowiednie dane w odpowiednim polu.


0 dla odpowiedzi nr 2

Wykonaliśmy wiele wdrożeń przy użyciu wyszukiwania solr i elastic.
I dostałem dwa wyzwania

  1. definiowanie schematu i bardziej szczegółowe pobieranie dokumentu do danego schematu
  2. Następnie rozszerzaj wyszukiwane hasła na bardziej dokładne i przydatne dopasowanie. Solr, Elastic może dopasować to, co uzyskuje z treści, ale nie poza nią.

Musisz użyć Resume Parser jak www.rchilli.com, Sovrn, daxtra, możliwość wynajmu lub jakiekolwiek inne orazużyj ich danych wyjściowych i mapuj do swojego schematu. Najlepsze jest to, że masz dostęp do taksonomii w celu ulepszenia swoich treści. Możesz użyć dowolnego na podstawie swojego budżetu i potrzeb. Ale dla nas RChilli działało najlepiej.

Daj mi znać, jeśli potrzebujesz dalszej pomocy.