Googleがページをクロールする方法に興味があるだけです。GoogleBotが自分のサイトにあるかどうか、またどのページにあるかを示すコードが少しあります。
たとえば、Googleがページをクロールしている場合は、そのページに他の10ページのリンクを含む/page.htmlがあります。
それがあるページなのでインデックス付けのためだけにpage.htmlを追加するのでしょうか、それともインデックス付けのためにpage.html上にあるすべてのリンクを保存するのでしょうか。
回答:
回答№1は1これはおそらくあなたの質問に答えるでしょう: http://www.google.com/insidesearch/howsearchworks/crawling-indexing.html
回答№2の場合は0
たとえば、Googleがページをクロールしている場合は、そのページに他の10ページのリンクを含む/page.htmlがあります。
それがあるページなのでインデックス付けのためだけにpage.htmlを追加するのでしょうか、それともインデックス付けのためにpage.html上にあるすべてのリンクを保存するのでしょうか。
リンクは、まさにGoogleのボットがコンテンツを見つけるためにインターネットを巡回する方法です。はい、それらが何らかの方法で除外されない限り、それらはインデックス作成のためにキューに入れられます(robots.txt、NOINDEXメタタグなど)。
回答№3の場合は0
はい、Googleのクローラ - Googlebot - 以下の場合を除き、これらのリンクをインデックス作成のために保存します。 サイトのウェブマスターによって制限されている.
Googlebotのクロールプロセスは、ウェブページのURL 以前のクロールプロセスから生成され、サイトマップで拡張された ウェブマスターによって提供されたデータ。 Googlebotがこれらのそれぞれを訪問すると 各ページのリンク(SRCとHREF)を検出してそれらを追加するWebサイト クロールするページのリスト。