J'ai besoin de faire une application web similaire à Google News. Ai-je besoin d'apprendre la démolition HTML pour cela ou quelques techniques supplémentaires
Réponses:
1 pour la réponse № 1La plupart des informations diffusées par Google Actualités sont exclusivement des flux RSS / ATOM. Il est bien trop facile d’obtenir le contenu du site Web par le biais de flux RSS par rapport à la suppression.
Autre que cela si vous pouvez utiliser Java, alors vous pouvez gratter le HTML par vous-même en utilisant l'excellente bibliothèque OIE . C'est semblable à ce que Flipboard / Instapaper utilise
1 pour la réponse № 2
La solution la plus simple consiste à obtenir le flux RSS ou ATOM du site Web sur lequel vous essayez de récupérer des données.
Ce sont des formats bien connus, et extraireLes informations provenant de tels flux XML seraient beaucoup plus faciles que de les obtenir à partir d’une page HTML: avec RSS / ATOM, il vous suffira d’analyser le flux XML et d’extraire les balises contenant les informations qui vous intéressent.
Vous ne savez pas dans quelle langue vous travaillez, mais il est fort probable que vous trouviez une bibliothèque qui vous aiderait dans cette tâche.
Si le site Web n’exporte pas de flux RSS / ATOM ... Eh bien, vous devrez probablement vous rabattre sur la suppression du code HTML; bonne chance, car le langage HTML n’est pas aussi bien structuré que RSS / ATOM: vous devrez vous renseigner, pour chaque site Web, sur la pertinence informations.