Pomoc w programowaniu, odpowiedzi na pytania / Pyton / Liczba trafień podczas indeksowania witryny…? - python, strona internetowa, robot sieciowy, urllib

Liczba trafień podczas indeksowania witryny ...? - python, strona internetowa, robota sieciowego, urllib

Tworzę prostą aplikację, w której muszę śledzić linki ze strony itd., Tworząc w ten sposób bardzo podstawowy prototyp robota sieciowego.

Kiedy to testowałem, natknąłem się na robota.txt, który ma limit trafień dla wszystkich robotów zewnętrznych próbujących zaindeksować ich witrynę. Na przykład, jeśli robot.txt strony internetowej ma limit trafień nie większy niż 1 hit na sekundę (jak wikipedia.org) z danego adresu IP, a jeśli indeksuję kilka stron Wikipedii w tempie 1 strony na sekundę, a następnie jak oszacować, ile wyświetli się podczas indeksowania?

Pytanie: jeśli pobieram jedną całą stronę za pomocą urllib pytona, to ile trafień będzie ona odpowiadać?

Oto mój przykładowy kod:

import urllib.request
opener = urllib.request.FancyURLopener({})
open_url = opener.open(a)
page = open_url.read()
print page

Odpowiedzi:

1 dla odpowiedzi № 1

Jeśli pobierzesz całą stronę z witryny za pomocą urllib, będzie stanowić jedno (1) trafienie.

Zapisz stronę w zmiennej i od tej pory pracuj z tą zmienną.

Dodatkowo radzę ci użyć requests zamiast urllib. O wiele łatwiejsze / lepsze / mocniejsze.

Link do dokumentacja wniosków.

1 dla odpowiedzi nr 2

Jedną z rzeczy, które możesz zrobić, jest wprowadzenie odstępu czasowego między dwoma żądaniami, rozwiąże to problem, a także uniemożliwi blokowanie.

Powiązane pytania

robot, który tworzy drzewo linków z jednej witryny - strony internetowej, drzewa, hiperłącza, robota sieciowego

Jak wyodrębnić kod źródłowy ze strony internetowej, gdy dane, które wypakowuję, różnią się od "źródła widoku" w mojej przeglądarce? - vba, skrecze internetowe, robota sieciowego, ochrona kodu źródłowego

Upewnij się, że robot indeksujący go poprawnie indeksuje moją witrynę - wyszukiwanie, witrynę, robota, autorytet

Błąd podczas importowania urllib [duplicate] - python, urllib, python-3.6

Python web złomowanie geolokalizowanej strony internetowej - python, web-scraping, geolocation, urllib

Jak mogę uzyskać aktualny adres URL lub adres URL i zapisać go jako ciąg w pythonie? - python, string, url, wsgi, urllib

"403 Forbidden", gdy użyjesz pakietu Python urlib, aby pobrać obraz - python, robot sieciowy

Jaka jest dobra szybkość indeksowania? - python, scrapy, robota sieciowego

Jaki jest pożytek z cookiejar w uzyskiwaniu adresu URL - python, urllib, cookiejar

Boty różnią się od robotów z punktu widzenia python Django - python, django, robota sieciowego, scrapy, boty

scrapy CrawlSpider: modyfikuj listę zabronionych reguł podczas przeszukiwania - python, scrapy, web-crawler, scrapy-spider

Python WebCrawling urllib.error.URLError: <urlopen error Tymczasowa awaria w rozpoznawaniu nazw> - python, robot sieciowy, urllib

Nie można wyodrębnić obrazu ze strony internetowej - python, html, urllib

błąd modułu urllib! AttributeError: obiekt 'module' nie ma atrybutu 'request' - python, python-2.7

skrypt Pythona do zapytania strony z lokalnego komputera - python, python-3.x

Python crawler w witrynie ajax (ustawienia modemu-routera) - python, ajax, beautifulsoup, robota sieciowego, urllib

Czy lepiej używać jednego dużego skryptu zamiast wielu mniejszych? - python-2.7, csv, robot sieciowy

Jak zablokować indeksowanie strony bez znajomości jej adresu IP - php, .htaccess, robota sieciowego, robots.txt

Przeszukiwacz sieci Web Selenium Webdriver - java, selen, selen-webdriver

Płacenie za roboty na AppEngine - google-app-engine, crawler internetowy