/ / Ako extrahovať HTML tagy z webovej stránky generovanej za behu - php, html-parsing, simple-html-dom

Ako extrahovať HTML tagy z webovej stránky vygenerovanej pri behu - php, html-parsing, simple-html-dom

Používam analyzátor SimpleHTMLDOM na extrahovanie údajov HTML z webových stránok. Ale narazil som na webové stránky ako www.coursera.com pričom webová stránka je generovaná za behu.

Musím vedieť, že sa niekto pokúšal analyzovať takéto stránky?

Som nováčikom v tejto oblasti, takže niektoré teórie na túto tému by mi pomohli porozumieť pri analýze webových stránok.

odpovede:

3 pre odpoveď č. 1

V tomto prípade je to pravdepodobne jednoduchšie (aj keď nieVždy). Údaje, ktoré sa používajú na generovanie obsahu, sú pravdepodobne súčasťou požiadaviek ajax, na ktoré môžete posielať požiadavky aj týmto koncovým bodom ajax a analyzovať odpoveď z koncového bodu.

Často to bude v JSON, čo je pomerne jednoduché analyzovať v porovnaní s HTML.


1 pre odpoveď č. 2

John Resig napísal HTML Parser.

demonštrácie: http://ejohn.org/blog/pure-javascript-html-parser/

To môže cvičenie pre vás.