/ / Raspar dados de toda a web [fechado] - raspagem da web

Raspando dados de toda a web [fechado] - web-scraping

Preciso desenvolver uma ferramenta de raspagem que raspedados do produto (preço, título etc.) de toda a Web. Agora, tenho experiência em raspar, mas isso é para um único site. Não sei como raspar toda a Web. Uma solução possível é consultar o google e, em seguida, retire cada site do link que aparece no google. Essa é uma boa abordagem?

Eu só preciso de uma abordagem geral de como vocêresolver esse problema porque, a meu ver, cada site pode ter sua própria maneira de representar dados. Como incorporar todas essas variações? Alguma orientação / dicas?

Respostas:

1 para resposta № 1

O Google possui um recurso de comparação de preços de vários sites, consulte: http://www.google.co.uk/shopping

Você pode tentar consultar esse recurso usandoo Google possui uma API de pesquisa personalizada ou um curl, embora a API seja provavelmente uma escolha melhor, pois o Google é notoriamente complicado de raspar e provavelmente trancará o IP se achar que um script de curl ou similar está sendo usado. A alternativa é extrair os dados alguém escolhe outro (s) site (s) de comparação se a idéia de codificar vários sites manualmente o enche de medo.


1 para resposta № 2

O termo que define o que você está falando é um rastreador da web. Você já viu o artigo da wikipedia?

http://en.wikipedia.org/wiki/Web_crawler