/ / Wie erhalte ich den Inhalt einer Quelldatei? [Closed] - php, parsing, curl

So erhalten Sie den Inhalt einer beliebigen Quelldatei [geschlossen] - PHP, Parsing, Curl

Beispiel: Wenn die URL ist http://www.google.com

Ich weiß, wie man den Inhalt erhält und wie man ihn analysiert file_get_contents oder curl Methode.

Meine Frage lautet also: Wie erhalte ich den Inhalt und analysiere die Quelldatei dieser Webseite?

Zum Beispiel: view-source: http://www.google.com

Beim Parsen der obigen Quelldatei wurde festgestellt, dass der Dateiinhalt zunächst nicht zum Parsen geladen wird.

Also brauche ich Hilfe bezüglich

Wie lade ich den Inhalt von view-source:http://www.google.com Seite.

Antworten:

2 für die Antwort № 1

file_get_contents und view-source im chrome browser sollte das selbe zurückgeben - das HTML Code der Seite. Wenn Sie versuchen, den Code hinter diesem HTML-Code (PHP, .net usw.) abzurufen, können Sie dies nicht tun.

view-source zeigt dir das genau das gleiche als Code zurückgegeben von cUrl oder file_get_contentsund es ist nur eine Funktion im Chrome-Browser - es ist kein gültiges URL-Adressschema.


2 für die Antwort № 2

Sie erhalten den Webseiteninhalt über file_get_contents ("http://www.google.com"). nicht file_get_contents ("Quelltext anzeigen: http://www.google.com");

Dann analysieren Sie es mit:

$html = file_get_contents("http://www.google.com");
$doc = new DOMDocument();
$doc->loadHTML($html);

Wenn die PHP DOM API das Parsing nicht ausführen kann, können Sie den PHP Simple HTML DOM Parser ausprobieren. http://simplehtmldom.sourceforge.net/


2 für die Antwort № 3

Sie schrieben: "Zum Beispiel: view-source: http://www.google.com

Beim Parsen der obigen Quelldatei wurde festgestellt, dass der Dateiinhalt nicht geladen wird. "

Und hier ist das Problem: view-source: ist eine Funktion von Chrome - keine gültige URL. Deshalb werden die Inhalte nicht geladen. Die PHP-Funktionen benötigen eine gültige URL: http://www.google.com von dem es die Quelle laden kann.