/ / Ako opraviť indexované stránky, ktoré by nemali prehľadávať GoogleBot a iné prehľadávače vyhľadávacích nástrojov? - asp.net-mvc-3, http-status-code-404, http-redirect, google-crawlers, search-engine-robs

Ako opraviť indexované stránky, ktoré by nemali prehľadávať GoogleBot a iné prehľadávače vyhľadávacích nástrojov? - asp.net-mvc-3, http-status-code-404, presmerovanie http, google-crawlers, vyhľadávacie nástroje-roboty

Na existujúcom webe .Net MVC3 sme implementovali stránkovanie, kde adresa URL vyzerá asi takto www.mysite.com/someterm/anotherterm/_p/89/10, kde 89 je číslo stránky a 10 je počet výsledkov na stránku.

Bohužiaľ rel="nofollow" v odkazoch na počet strán viac ako 3 chýbal a tieto stránky tiež chýbali <meta name="robots" content="noindex,nofollow" />.

Problém je v tom, že Google a niekoľko ďalších vyhľadávanímotory teraz tieto stránky indexovali a teraz sa snažia pomerne často všetky prehľadávať, čo, ako sme zistili, začalo mať drastický dopad na prod prod server. Nechceme, aby boli prehľadané všetky tieto ďalšie tisíce stránok, iba prvých pár.

Vrátil som kód späť na verziu webuto nezahŕňa stránkovanie, aby náš server DB teraz nebol zasiahnutý tak tvrdo. Takže zatiaľ čo vyhľadávače dostanú chyby 404 pre všetky tieto stránky, chcem vedieť, či je to najlepšia vec, pretože po chvíli Znovu predstavím stránkovací web?

Mohol by som pridať nasledujúce do súboru web.config, aby boli všetky 404-ky presmerované na domovskú stránku:

 <httpErrors errorMode="Custom">
<remove statusCode="404"/>
<error statusCode="404" path="/" responseMode="ExecuteURL"/>
</httpErrors>

Ale myslím si, že sa to pri všetkých týchto stránkach s parametrami URL stránkovania vykreslí ako „duplikátny obsah“.

Je tu najlepší nápad nechať tieto 404-ky pokračovať týždeň alebo dva - potom znova zaviesť stránkovací web?

Ďalšou možnosťou môže byť uvoľnenie stránkovacieho webu s pridaným kódom na odmietnutie prehľadávačov na stránkach vyšších ako 3. Návrhy?

Existuje rýchlejší spôsob, ako tieto stránky dostať z indexov, aby ich nebolo možné prehľadávať?

Vďaka.

odpovede:

0 pre odpoveď č. 1

Skúste vytvoriť súbor robots.txt, ktorý by väčšina prehľadávačov (iných ako black-hat) mala rešpektovať blokovanie tejto stránky, ak ju umiestnite do súboru robots.txt.

Tu je nástroj: http://www.mcanerin.com/EN/search-engine/robots-txt.asp

Tiež nástroje správcu webu Google vám poskytujú vynikajúce stránky a môžu pomôcť aj so súborom robots.txt


0 pre odpoveď č. 2

Jednoduché ponechanie stránok na 404 by to neurobilo, pretože ide o trvalé odstránenie. Pohľad na protokol RFC 2616 Hypertext Transfer Protocol - kapitola HTTP / 1.1, kapitola 10. Definície stavového kódu:

„Požadovaný zdroj už nie je k dispozícii naserver a č preposielacia adresa je známa. Očakáva sa, že táto podmienka bude považované za trvalé. Klienti s možnosťou úpravy odkazov BY MALI BYŤ vymazať odkazy na URI požiadavky po schválení používateľom. Ak server nevie alebo nemá možnosť zistiť, či je alebo nie je stav je trvalý, MAL by byť stavový kód 404 (Nenašiel sa) namiesto toho sa používa. Táto odpoveď je cachovateľná, pokiaľ nie je uvedené inak.

Odozva 410 má primárne slúžiť na pomocúlohou webu údržbu oznámením príjemcovi, že ide o zdroj zámerne nedostupné a že si to vlastníci serverov želajú vzdialené odkazy na tento zdroj budú odstránené. Takáto udalosť je spoločná pre časovo obmedzené, propagačné služby a zdroje, ktoré patria spoločnosti jednotlivci, ktorí už nepracujú na serveri. Nie je to tak je potrebné označiť všetky trvale nedostupné zdroje ako "preč" alebo ponechať si značku na dlhšie obdobie - to je ponechané na podľa uváženia vlastníka servera. “

Jednoducho som pridal novú metódu ActuionResult:

    public ActionResult Http410()
{
return new HttpStatusCodeResult(410);
}

a vytvoril nové trasy pre zhodu „__p“:

routes.MapRoute(name: "WholeCountryResultsWithPaging__p", url: "{searchTerm}/__p/{pageNumber}/{pageSize}", defaults: new { controller = "Errors", action = "Http410", pageNumber = UrlParameter.Optional, pageSize = UrlParameter.Optional });

0 pre odpoveď č. 3

Nechcel by som sa uchýliť k číslu 404, ibaže by som použil poslednú možnosť a duplikát obsahu by mohol viesť k strate vašej stránky. Prvá vec, ktorú by som urobil, je vytvoriť Nástroje správcu webu Google účet a nakonfigurujte, ako má prehľadávať vaše stránky, odstraňovať stránky, aké atribúty používať atď.

To isté urobte (nástroje správcu webu) aj pre Bingby malo byť jasné v priebehu jedného alebo dvoch dní. (Bingov engine používa mnoho ďalších vyhľadávacích nástrojov a zdá sa, že aj vaše zmeny v Bingu sa k nim dostávajú.)