Beispiel: Wenn die URL ist http://www.google.com
Ich weiß, wie man den Inhalt erhält und wie man ihn analysiert file_get_contents
oder curl
Methode.
Meine Frage lautet also: Wie erhalte ich den Inhalt und analysiere die Quelldatei dieser Webseite?
Zum Beispiel: view-source: http://www.google.com
Beim Parsen der obigen Quelldatei wurde festgestellt, dass der Dateiinhalt zunächst nicht zum Parsen geladen wird.
Also brauche ich Hilfe bezüglich
Wie lade ich den Inhalt von view-source:http://www.google.com
Seite.
Antworten:
2 für die Antwort № 1file_get_contents
und view-source
im chrome browser sollte das selbe zurückgeben - das HTML Code der Seite. Wenn Sie versuchen, den Code hinter diesem HTML-Code (PHP, .net usw.) abzurufen, können Sie dies nicht tun.
view-source
zeigt dir das genau das gleiche als Code zurückgegeben von cUrl
oder file_get_contents
und es ist nur eine Funktion im Chrome-Browser - es ist kein gültiges URL-Adressschema.
2 für die Antwort № 2
Sie erhalten den Webseiteninhalt über file_get_contents ("http://www.google.com"). nicht file_get_contents ("Quelltext anzeigen: http://www.google.com");
Dann analysieren Sie es mit:
$html = file_get_contents("http://www.google.com");
$doc = new DOMDocument();
$doc->loadHTML($html);
Wenn die PHP DOM API das Parsing nicht ausführen kann, können Sie den PHP Simple HTML DOM Parser ausprobieren. http://simplehtmldom.sourceforge.net/
2 für die Antwort № 3
Sie schrieben: "Zum Beispiel: view-source: http://www.google.com
Beim Parsen der obigen Quelldatei wurde festgestellt, dass der Dateiinhalt nicht geladen wird. "
Und hier ist das Problem: view-source:
ist eine Funktion von Chrome - keine gültige URL. Deshalb werden die Inhalte nicht geladen. Die PHP-Funktionen benötigen eine gültige URL: http://www.google.com von dem es die Quelle laden kann.