/ / Cómo analizar una página HTML que incluye etiquetas ocultas - python, html

Cómo analizar una página HTML que incluye etiquetas ocultas - python, html

Estoy tratando de analizar algunas páginas web para usarlas en el futuro. Para analizar páginas web, he utilizado diferentes módulos como urllib, lxml, BeautifulSoup, HTMLParser para alcanzar mi objetivo.

No encontré ningún problema al analizar las páginas web hasta que me enfrenté a las etiquetas ocultas.

Cuando abrí la página con un navegador Chrome y usé las herramientas del desarrollador para ver los elementos de la página, pude ver el <embed> parte del código:

 <embed type="..." src="..." ID="..." >

y simplemente puede copiar / pegar manualmente.

Necesito analizar ID de esta etiqueta oculta. ¿Por qué puedo analizar esta parte del sitio usando python? ¿Alguna forma de analizar estas partes ocultas?

Sé que no es posible ver algunas partes de código como php y asp en la fuente html, pero supongo que no es el caso.

Respuestas

1 para la respuesta № 1

Este código "oculto" probablemente es generado por JavaScript en tiempo de ejecución.

Es posible que tenga más suerte al descubrir cómo funciona JavaScript y dónde obtiene sus datos (las URL) que intentar que algo ejecute el script y luego analizar el árbol DOM resultante ...