У документі я повинен виявити ім’я людини івитягніть його у файл txt. З цієї причини, я думаю, мені слід мати список людських імен в Єврапі, США та Канаді. Більше того, я, мабуть, подивитимусь на ім'я в доступному списку та на слова, знайдені в документі. Якщо вони збігаються, я їх витягну. Однак питання полягає в тому, що "як я можу отримати список людського імені?". Або ви знаєте проект з відкритим кодом для виявлення імені людини?
ПРИМІТКА. Я не прошу рекомендацій щодо інструментів. ІТ - це лише набір даних, як я можу отримати його? Спосіб.
Відповіді:
2 для відповіді № 1Доступні списки імен, які використовуються в англомовних країнах. Див. http://www.world-english.org/boys_names_list.htm. (Якщо ви шукаєте людей з німецькою, французькою мовами, ... називайте це ", це ускладнюватиме питання, але навколо повинні бути інші списки - я бачив одного з німецьких імен."
Введіть імена в хеш-набір.
Розбивати текст на слова просто.
Повторіть слова та спробуйте знайти правдоподібні (наприклад, першу букву у верхньому регістрі) у наборі хешу.
Якщо вам потрібно знайти повні імена, перегляньте наступні слова та перевірте можливі середні початкові ("Джордж А."), повне прізвище та прізвище.
Це повно дір, але я думаю, що можна досягти 90%.