/ / Como extrair tags HTML da página da web gerada em tempo de execução - php, html-parsing, simple-html-dom

Como extrair tags HTML da página da web gerada em tempo de execução - php, html-parsing, simple-html-dom

Eu estou usando um analisador SimpleHTMLDOM para extrair dados HTML de páginas da web. Mas me deparei com sites como www.coursera.com em que a página da Web é gerada no tempo de execução.

Eu preciso saber alguém já tentou analisar essas páginas?

Eu sou novo neste campo, portanto, algumas teorias sobre esse tópico ajudariam meu entendimento na análise de páginas da Web.

Respostas:

3 para resposta № 1

Neste caso, é provavelmente mais fácil (embora nãosempre). Os dados que estão sendo usados ​​para gerar conteúdo provavelmente fazem parte de solicitações ajax nas quais você pode enviar uma solicitação para esses pontos de extremidade do ajax diretamente e analisar a resposta do ponto de extremidade.

Geralmente, isso acontece em JSON, o que é muito fácil de analisar em comparação com o HTML.


1 para resposta № 2

John Resig escreveu um analisador de HTML.

Demonstração: http://ejohn.org/blog/pure-javascript-html-parser/

Isso pode exercitar para você.