プログラミングの助け、質問への回答 / PHP / Googleがページをクロールする方法[クローズ] - php

googleがページをクロールする方法[閉じる] - php

Googleがページをクロールする方法に興味があるだけです。GoogleBotが自分のサイトにあるかどうか、またどのページにあるかを示すコードが少しあります。

たとえば、Googleがページをクロールしている場合は、そのページに他の10ページのリンクを含む/page.htmlがあります。

それがあるページなのでインデックス付けのためだけにpage.htmlを追加するのでしょうか、それともインデックス付けのためにpage.html上にあるすべてのリンクを保存するのでしょうか。

回答：

回答№1は1

これはおそらくあなたの質問に答えるでしょう： http://www.google.com/insidesearch/howsearchworks/crawling-indexing.html

回答№2の場合は0

たとえば、Googleがページをクロールしている場合は、そのページに他の10ページのリンクを含む/page.htmlがあります。

それがあるページなのでインデックス付けのためだけにpage.htmlを追加するのでしょうか、それともインデックス付けのためにpage.html上にあるすべてのリンクを保存するのでしょうか。

リンクは、まさにGoogleのボットがコンテンツを見つけるためにインターネットを巡回する方法です。はい、それらが何らかの方法で除外されない限り、それらはインデックス作成のためにキューに入れられます（robots.txt、NOINDEXメタタグなど）。

回答№3の場合は0

はい、Googleのクローラ - Googlebot - 以下の場合を除き、これらのリンクをインデックス作成のために保存します。サイトのウェブマスターによって制限されている.

Googlebotのクロールプロセスは、ウェブページのURL 以前のクロールプロセスから生成され、サイトマップで拡張されたウェブマスターによって提供されたデータ。 Googlebotがこれらのそれぞれを訪問すると各ページのリンク（SRCとHREF）を検出してそれらを追加するWebサイトクロールするページのリスト。

1つのクエリで3つのテーブルから削除する - sql、inner-join、sql-delete

Googleのボットに関する - セッション、Webクローラー、ボット

誰かが自分のウェブサイトを検索すると、どのように私の詳細のようにGoogleを表示できますか？ [閉じた] - SEO

どのように新しいポストを追加した後にGoogleのpingに送信する[閉鎖] - SEO

Googleのセキュリティ証明書のエラー[閉鎖] - セキュリティ

ウェブページの最終更新日時の表示 - 検索、最終変更

Googleが一部のサイトをリアルタイムでクロールする方法[終了] - 検索、seo

複数のマシン上でスパイダースパイダーを実行する（並列スクレイピング） - python、scrapy

治療を一時停止する。故障かな？ - python、scrapy、web-crawler、scrapy-spider

scrapyが既にダウンロードされていればファイルをダウンロードしないようにする - python、scrapy

FacebookがウェブサイトをクロールするときにJavascriptを実行する - php、javascript、facebook、opengraph

Nutchクローラーは、与えられたページ上のリンクのサブセットしか見つけられませんか？ - java、ウェブクローラー、ナット