/ / инструменти за индексиране в мрежата, които поддържат взаимодействие с целеви сайтове, преди да започнат да обхождат - уеб-робот, nutch

инструменти за обхождане в мрежата, които поддържат взаимодействие с целевите сайтове, преди да започнат да обхождат - уеб робот, гайка

Търся робот, който е способенобработване на страници с Ajax и възможност за извършване на определени потребителски взаимодействия с целевия сайт, преди да започнете да обхождате сайта (например, кликнете върху определени елементи от менюто, попълвате някои форми и т.н.). Опитах webdriver / selenium (които са наистина инструменти за уеб изстъргване) и сега искам да знам дали има някакъв робот, който да поддържа емулиране на някои потребителски взаимодействия преди да започне да обхожда? (В Java или Python или Ruby ...)

Благодаря

ps - Може ли nutch да направи това? Ако да, оценявам всяка връзка, описваща това.

Отговори:

1 за отговор № 1

Nutch не работи с AJAX, бисквитки или някое от описаните от вас взаимодействия с потребители.


0 за отговор № 2

Можете да опитате да свържете селен с питон базиран робот scrapy , Всеки път, когато AJAX трябва да се обработва, той ще задейства външен процес за изстъргване със селен.