/ / Come estrarre i tag HTML dalla pagina Web generata in fase di esecuzione - php, html-parsing, simple-html-dom

Come estrarre i tag HTML dalla pagina Web generata in fase di esecuzione - php, html-parsing, simple-html-dom

Sto usando un parser SimpleHTMLDOM per estrarre dati HTML da pagine web. Ma mi sono imbattuto in siti web come www.coursera.com in cui la pagina web viene generata in fase di esecuzione.

Devo sapere che qualcuno ha provato a analizzare queste pagine?

Sono nuovo in questo campo, quindi alcune teorie su questo argomento mi aiuteranno a comprendere le pagine web.

risposte:

3 per risposta № 1

In questo caso è probabilmente più facile (anche se nosempre). I dati utilizzati per generare il contenuto sono probabilmente parte delle richieste Ajax che è possibile inviare una richiesta direttamente agli endpoint ajax e analizzare la risposta dall'endpoint.

Spesso questo sarà in JSON, che è abbastanza facile da analizzare rispetto all'HTML.


1 per risposta № 2

John Resig ha scritto un parser HTML.

dimostrazione: http://ejohn.org/blog/pure-javascript-html-parser/

Questo può allenarti per te.