/ / Скреблінг даних з усієї мережі [закрито] - веб-скреблінг

Знімати дані з усієї веб-сторінки [closed] - web-scraping

Мені потрібно розробити інструмент для вискоблювання, який зішкрібдані продукту (ціна, назва тощо) з усієї мережі. Зараз у мене є досвід роботи зі скребком, але це стосується одного веб-сайту. Я не впевнений, як я скребку всієї мережі. Одне можливе рішення - це запит на Google а потім скребте кожен веб-сайт із посилання, яке з’являється в Google. Це хороший підхід?

Мені просто потрібен загальний підхід, як би тивирішити цю проблему, оскільки, як я бачу, кожен сайт може мати свій спосіб подання даних. Як я включаю всі ці варіанти? Якісь рекомендації?

Відповіді:

1 для відповіді № 1

У Google є вбудована функція порівняння цін на кількох веб-сайтах: див. http://www.google.co.uk/shopping

Ви можете спробувати запросити цей ресурс за допомогоюgoogles власний користувальницький пошуковий API чи згортання, хоча API, ймовірно, кращий вибір, оскільки Google, як відомо, хитро підстрибує та, ймовірно, заблокує IP-адресу, якщо він думає, що використовується сценарій згортання або аналогічний. Альтернативою є витяг даних вимкнути когось із інших сайтів порівняння, якщо ідея кодування кількох сайтів вручну наповнює вас страхом.


1 для відповіді № 2

Термін, який визначає, про що ви говорите, - це веб-сканер. Ви подивилися статтю Вікіпедії?

http://en.wikipedia.org/wiki/Web_crawler