/ /実行時に生成されたWebページからHTMLタグを抽出する方法 - php、html-parsing、simple-html-dom

実行時に生成されるWebページからHTMLタグを抽出する方法 - php、html-parsing、simple-html-dom

SimpleHTMLDOMパーサーを使用して、WebページからHTMLデータを抽出しています。しかし、私は www.coursera.com ウェブページは実行時に生成される。

誰かがそのようなページを解析しようとしているのを知る必要がありますか?

私はこの分野に慣れていないので、このトピックに関するいくつかの理論はウェブページを解析する上での私の理解に役立つでしょう。

回答:

回答№1の場合は3

この場合、おそらくより簡単です(ただし常に)。コンテンツを生成するために使用されているデータは、ajaxリクエストの一部である可能性が高いので、リクエストをそれらのajaxエンドポイントに直接送信し、エンドポイントからのレスポンスを解析することができます。

多くの場合、これはJSONになります。これはHTMLと比較して解析が非常に簡単です。


回答№2の場合は1

John ResigはHTML Parserを作成しました。

デモhttp://ejohn.org/blog/pure-javascript-html-parser/

これはあなたのために働くことができます。