/ / Comment analyser une page HTML avec des balises cachées - python, html

Comment analyser une page HTML avec des balises cachées - python, html

J'essaie d'analyser certaines pages Web pour une utilisation future. Pour analyser des pages Web, j'ai utilisé différents modules tels que urllib, lxml, BeautifulSoup, HTMLParser pour atteindre mon objectif.

Je n’ai rencontré aucun problème lors de l’analyse de pages Web jusqu’à ce que j’aie rencontré les balises cachées.

Quand j'ai ouvert la page avec un navigateur chrome et utilisé les outils de développement pour voir les éléments de la page, j'ai pu voir le <embed> partie du code:

 <embed type="..." src="..." ID="..." >

et peut simplement copier / coller manuellement.

J'ai besoin d'analyser ID de cette balise cachée. Pourquoi puis-je analyser cette partie du site en utilisant python? Un moyen d'analyser ces parties cachées?

Je sais qu'il n'est pas possible de voir certaines parties du code comme php et asp dans la source html mais je suppose que ce n'est pas le cas.

Réponses:

1 pour la réponse № 1

Ce code "caché" est probablement généré par JavaScript lors de l'exécution.

Vous aurez peut-être plus de chance de savoir comment fonctionne le JavaScript et où il récupère ses données (les URL) que d'essayer de faire exécuter le script par quelque chose, puis d'analyser l'arborescence DOM résultante ...