/ / is google news exemple de scrapage html - nettoyage d'écran, nettoyage Web

est un exemple de google news de sctppping html - gratte-écran, web-scraping

J'ai besoin de faire une application web similaire à Google News. Ai-je besoin d'apprendre la démolition HTML pour cela ou quelques techniques supplémentaires

Réponses:

1 pour la réponse № 1

La plupart des informations diffusées par Google Actualités sont exclusivement des flux RSS / ATOM. Il est bien trop facile d’obtenir le contenu du site Web par le biais de flux RSS par rapport à la suppression.

Autre que cela si vous pouvez utiliser Java, alors vous pouvez gratter le HTML par vous-même en utilisant l'excellente bibliothèque OIE . C'est semblable à ce que Flipboard / Instapaper utilise


1 pour la réponse № 2

La solution la plus simple consiste à obtenir le flux RSS ou ATOM du site Web sur lequel vous essayez de récupérer des données.

Ce sont des formats bien connus, et extraireLes informations provenant de tels flux XML seraient beaucoup plus faciles que de les obtenir à partir d’une page HTML: avec RSS / ATOM, il vous suffira d’analyser le flux XML et d’extraire les balises contenant les informations qui vous intéressent.

Vous ne savez pas dans quelle langue vous travaillez, mais il est fort probable que vous trouviez une bibliothèque qui vous aiderait dans cette tâche.


Si le site Web n’exporte pas de flux RSS / ATOM ... Eh bien, vous devrez probablement vous rabattre sur la suppression du code HTML; bonne chance, car le langage HTML n’est pas aussi bien structuré que RSS / ATOM: vous devrez vous renseigner, pour chaque site Web, sur la pertinence informations.