Pomoc w programowaniu, odpowiedzi na pytania / Robotstxt / Jak skonfigurować plik robots.txt, aby zezwolić na wszystko? - robots.txt

Jak skonfigurować plik robots.txt, aby zezwolić na wszystko? - robots.txt

Mój robots.txt w Narzędziach Google dla webmasterów pokazuje następujące wartości:

User-agent: *
Allow: /

Co to znaczy? Nie mam wystarczającej wiedzy na ten temat, więc szukam twojej pomocy. Chcę zezwolić wszystkim robotom na indeksowanie mojej witryny, czy to odpowiednia konfiguracja?

Odpowiedzi:

129 dla odpowiedzi № 1

Ten plik umożliwi dostęp wszystkim robotom

User-agent: *
Allow: /

Zasadniczo pozwala to wszystkim agentom użytkownika (*) na wszystkie części witryny (/).

30 dla odpowiedzi nr 2

Jeśli chcesz pozwolić wszystkim botom na indeksowanie wszystkiego, jest to najlepszy sposób na podanie go w pliku robots.txt:

User-agent: *
Disallow:

Zauważ, że Disallow pole ma pustą wartość, co oznacza zgodnie ze specyfikacją:

Każda pusta wartość wskazuje, że można pobrać wszystkie adresy URL.

Twoja droga (z Allow: / zamiast Disallow:) też działa, ale Allow nie jest częścią oryginalna specyfikacja pliku robots.txt, więc nie jest obsługiwany przez wszystkie roboty (jednak wiele popularnych obsługuje to jak Googlebot). To powiedziawszy, nierozpoznane pola muszą zostać zignorowane, a dla botów, które nie rozpoznają Allow, wynik byłby taki sam w tym przypadku tak czy inaczej: jeśli nic nie jest zabronione, aby się czołgać (z Disallow), wszystko wolno się czołgać.
Jednak formalnie (według oryginalnej specyfikacji) jest to niepoprawny rekord, ponieważ przynajmniej jeden Disallow To pole jest wymagane:

W rekordzie musi znajdować się co najmniej jedno pole Disallow.

7 dla odpowiedzi nr 3

Oznacza to, że pozwalasz każdemu (*) user-agent / crawler, aby uzyskać dostęp do root'a (/) Twojej witryny. Jesteś w porządku.

7 dla odpowiedzi № 4

Rozumiem, że jest to dość stare pytanie i ma całkiem dobre odpowiedzi. Ale oto moje dwa centy ze względu na kompletność.

Zgodnie z oficjalnym dokumentacjaIstnieją cztery sposoby, aby umożliwić robotom pełny dostęp do Twojej witryny.

Wyczyść:

Określ globalny mechanizm dopasowujący z wykluczającym segmentem, jak wspomniano w @unor. Więc twój /robot.txt wygląda tak.

User-agent: *
Disallow:

Hack:

Stwórz /robot.txt plik bez zawartości. Który domyślnie pozwoli na wszystko dla wszystkich typów Bots.

Nie obchodzi mnie sposób:

Nie twórz a /robot.txt całkowicie. Który powinien dać dokładnie takie same wyniki, jak powyższe dwa.

Brzydki:

Od Dokumentacja robotów dla metatagówMożesz użyć poniższego metatagu na wszystkich swoich stronach w witrynie, aby umożliwić Bots wiem, że te strony nie powinny być indeksowane.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Aby to zastosować do całej witryny, musisz dodać ten metatag do wszystkich swoich stron. I ten tag powinien być umieszczony pod twoim HEAD tag strony. Więcej informacji o tym metatagu tutaj.