SimpleHTMLDOMパーサーを使用して、WebページからHTMLデータを抽出しています。しかし、私は www.coursera.com ウェブページは実行時に生成される。
誰かがそのようなページを解析しようとしているのを知る必要がありますか?
私はこの分野に慣れていないので、このトピックに関するいくつかの理論はウェブページを解析する上での私の理解に役立つでしょう。
回答:
回答№1の場合は3この場合、おそらくより簡単です(ただし常に)。コンテンツを生成するために使用されているデータは、ajaxリクエストの一部である可能性が高いので、リクエストをそれらのajaxエンドポイントに直接送信し、エンドポイントからのレスポンスを解析することができます。
多くの場合、これはJSONになります。これはHTMLと比較して解析が非常に簡単です。
回答№2の場合は1
John ResigはHTML Parserを作成しました。
これはあなたのために働くことができます。