Pomoc pri programovaní, odpovede na otázky / php / Ako extrahovať HTML tagy z webovej stránky generovanej za behu - php, html-parsing, simple-html-dom

Ako extrahovať HTML tagy z webovej stránky vygenerovanej pri behu - php, html-parsing, simple-html-dom

Používam analyzátor SimpleHTMLDOM na extrahovanie údajov HTML z webových stránok. Ale narazil som na webové stránky ako www.coursera.com pričom webová stránka je generovaná za behu.

Musím vedieť, že sa niekto pokúšal analyzovať takéto stránky?

Som nováčikom v tejto oblasti, takže niektoré teórie na túto tému by mi pomohli porozumieť pri analýze webových stránok.

odpovede:

3 pre odpoveď č. 1

V tomto prípade je to pravdepodobne jednoduchšie (aj keď nieVždy). Údaje, ktoré sa používajú na generovanie obsahu, sú pravdepodobne súčasťou požiadaviek ajax, na ktoré môžete posielať požiadavky aj týmto koncovým bodom ajax a analyzovať odpoveď z koncového bodu.

Často to bude v JSON, čo je pomerne jednoduché analyzovať v porovnaní s HTML.

1 pre odpoveď č. 2

John Resig napísal HTML Parser.

demonštrácie: http://ejohn.org/blog/pure-javascript-html-parser/

To môže cvičenie pre vás.

Súvisiace otázky

scrapy xpath riešenie pre xml s type = html a html entity - xpath, scrapy, lxml

Ako rozdeliť xml kód na html - xml, xml-parsing

ako extrahovať konkrétne csv z webovej stránky html, ktorá obsahuje viac odkazov csv - python, html, csv, parsovanie, url

Python - Uchovávanie niektorých HTML tagov s funkciou lxml Xpath - python, html, xpath, html-parsing, lxml

Ako analyzovať HTML stránku vrátane skrytých značiek - python, html

Extrahujte html z webových stránok - php, html, xml

PHP a XML: Náklady na analýzu veľkého XML súboru každej žiadosti o stránku - php, xml, model-view-controller, dom, parsing

PHP analyzovať stránku HTML iba po úplnom načítaní stránky - php, html, parsovanie, dom, domdocument

Parsovanie HTML bez xpath - php, html-parsing, xml-parsing

Parsovanie / Extrakcia vnútra značky HTML pomocou Perl? - Perl, parsovanie

Adresy URL kategórií a značiek nie sú slimáky - pelikán

Zoznam HTML tagov z reťazca String - java, html, parsovanie, tagy

Extrahujte značky medzi značkami Java Regex [closed] - java, regex, html-parsing

Adresovanie rámčeka z rámca generovaného cgi? - javascript, html, webové aplikácie, cgi

Extrahujte časti HTML tagu pomocou R-html, r, parsovania, tagov

Odstrániť všetky HTML reťazec? - c #, .net

Extrahovanie HTML tagov s C ++ - c ++, html, xml, regex, parsovanie

C # Regrex extrahovať HTML text - c #, regex

Analyzovať html zdroj stránky s libcurl a C - c, parsovanie, funkcia, libcurl

Extrahujte zdrojovú stránku bez značiek pomocou bash - bash, curl, tagov, extraktu, wgetu