В документ трябва да открия човешкото име иизвлечете го в txt файла. Поради тази причина мисля, че трябва да имам списък с човешки име в Eurape, САЩ и Канада. Нещо повече, вероятно ще погледна името в списъка с налични и думата, намерена в документа. Ако съвпаднат, ще ги извадя. Въпросът обаче е, че "как мога да получа списък на човешкото име?". Или познавате проект с отворен код за откриване на име на човек?
ЗАБЕЛЕЖКА: Аз не искам препоръка за инструменти. ИТ е само набор от данни, как мога да го достигна? Път.
Отговори:
2 за отговор № 1Налични са списъци с имена, използвани в англоговорящите страни. Вижте напр. http://www.world-english.org/boys_names_list.htm, (Ако търсите хора с немски, френски, ... имена, това ще усложни нещата, но трябва да има и други списъци наоколо - видях един за немски имена.)
Поставете първите имена в хеш.
Разделянето на текст на думи е просто.
Повторете думите и опитайте да потърсите признаци (напр. Първа буква в главни букви) в хеш-набора.
Ако трябва да намерите пълни имена, погледнете следната (ите) дума (и) и проверете за възможни средни начални ("Джордж А."), пълно друго име и фамилия.
Това е пълно с дупки, но мисля, че 90% биха могли да бъдат постигнати.