Przechodziłem przez to ślizgać się. Nie mam trudności ze zrozumieniem tego podejścia.
Moje dwa zapytania to:
- Jak
Solr
utrzymywać schematsemi-structured document
lubić wznawia (takie jak imię i nazwisko, umiejętności, edukacja itp.) - Mogą
Apache TIKA
wyodrębnić sekcję mądre informacje z plików PDF? Ponieważ każde CV będzie miało odmienne sekcje, jak zdefiniować wspólny schemat bytów?
Odpowiedzi:
0 dla odpowiedzi № 1Definiujesz schemat, aby uzyskać polaoczekujesz i możesz wyszukiwać w różnych polach na podstawie rodzaju zapytań, które chcesz wykonać. Możesz połączyć dowolne nieznane (tj. Nie jesteś pewny, gdzie należy) wartości do wspólnego pola wyszukiwania i sklasyfikować to pole niżej.
Musisz przeanalizować odpowiedź Tiki (lub ainny parser plików PDF / docx). Samo użycie Tiki nie da automatycznej odpowiedzi dostosowanej do problemu, który próbujesz rozwiązać. Będzie dużo ręcznej analizy i próby zrozumienia, co jest z przesłanego dokumentu, a następnie wstawienie odpowiednie dane w odpowiednim polu.
0 dla odpowiedzi nr 2
Wykonaliśmy wiele wdrożeń przy użyciu wyszukiwania solr i elastic.
I dostałem dwa wyzwania
- definiowanie schematu i bardziej szczegółowe pobieranie dokumentu do danego schematu
- Następnie rozszerzaj wyszukiwane hasła na bardziej dokładne i przydatne dopasowanie. Solr, Elastic może dopasować to, co uzyskuje z treści, ale nie poza nią.
Musisz użyć Resume Parser jak www.rchilli.com, Sovrn, daxtra, możliwość wynajmu lub jakiekolwiek inne orazużyj ich danych wyjściowych i mapuj do swojego schematu. Najlepsze jest to, że masz dostęp do taksonomii w celu ulepszenia swoich treści. Możesz użyć dowolnego na podstawie swojego budżetu i potrzeb. Ale dla nas RChilli działało najlepiej.
Daj mi znać, jeśli potrzebujesz dalszej pomocy.