Помощ при програмиране, отговори на въпроси / Уеб робот / Най-добър робот за определяне на вградени технологии? - уеб-робот

Най-добрият робот да се определи построен с технологии? - уеб робот

Builtwith.com и подобни услуги предоставят (срещу заплащане) списъци на домейни, изградени със специфични технологии като SalesForce или NationBuilder. Има някои технологии, които ме интересуват, че вградените с тях не сканират, вероятно защото са твърде малко пазарно присъствие.

Ако знаем определени подписи на страници, коиторазкрие технология, използвана за даден сайт, какъв е най-добрият начин да се идентифицират колкото е възможно повече от тези сайтове? Очакваме, че има 1000, а ние се интересуваме от тези в топ 10M сайтове от трафика. (Не смятаме, че най-големите сайтове използват тази технология.)

Имам списък с уебкадъри с отворен код - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - но моят случай на употреба изглежда различен от много другиредовните критерии за роботите, тъй като искаме да запазим „удари“ от домейни с този подпис. Така че ние не трябва да бъдем бързи, но трябва да проверим всички страници на сайта, докато не бъде намерен хит, да използваме само отговорни практики за пълзене и т.н. Какво е най-добре?

Или вместо да променяте робота и да го изпълнявате, има ли начин да накараме Google или някаква друга търсачка да намери характеристики на страницата, а не видимо съдържание, което би било по-добър подход?

Отговори:

3 за отговор № 1

Можете наистина да ощипвам отворен код уеб робот наистина. Връзката, която споменахте споменава много ресурси, но след като премахнете тези, които не се поддържат и тези, които не са разпределени, няма да останете с много. По дефиниция не знаете кои сайтове съдържат подписите, Търсите, така че ще трябва да получите списък на най-добрите 10М сайтове и да ги обходите, което е съществена операция, но определено е възможно с инструменти като Apache Nutch или StormCrawler (не са изброени в публикуваната връзка) [ОТКАЗ ОТ ОТГОВОРНОСТ Аз съм изпълнител на Nutch и авторът на SC].

Друг подход, който би бил по-евтин и по-бърз, би бил да се обработи Набори от данни на CommonCrawl, Те предоставят големи данни за обхождане на мрежата на месечна базабаза и да вършат работата по пълзене в мрежата за вас - включително да си учтив и т.н. ... Разбира се, техните набори от данни няма да имат перфектно покритие, но това е толкова добро, колкото и вие да получите, ако искате сами да изпълните обхождането. Това също е добър начин за проверка на вашите първоначални предположения и код за откриване на сигнатури на много големи данни. Обикновено препоръчвам обработката на CC, преди да се извърши обхождане с размер на уеб. Уебсайтът на СК съдържа подробности за библиотеките и кода за неговото обработване.

Какво правят повечето хора, включително и азпроцес CC за моите клиенти, е да се осъществи обработката с MapReduce и да го стартира на AWS EMR. Разходите зависят от сложността на обработката, разбира се, но хардуерният бюджет обикновено е стотици.

Надявам се това да помогне

РЕДАКТИРАНЕ: DZone след преиздаването на едно от моите публикации в блога ми с използването на CommonCrawl.