Čas od času potřebujeme říct vyhledávačům, že některé stránky se nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy přicházejí v podstatě tři způsoby:

  • použít meta tag robots s hodnotou noindex,
  • zablokovat stránku v robots.txt,
  • na všechny odkazy směřující na danou stránku navěsit atribut nofollow.

Nofollow u odkazů

Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení ve výsledcích. Některé vyhledávače také mohou chápat nofollow jako pouhý zákaz předání ranku, nikoliv jako zákaz následování při indexaci. V neposlední řadě se stránka může teoreticky dostat do indexu i jinak, například z toolbarů nebo přidáním do submit formuláře. Tato metoda tedy naše původní očekávání rozhodně nesplňuje a v podstatě nemá cenu se jí dále zabývat.

Robots.txt

Soubor robots.txt nám dává do ruky poměrně silný nástroj pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za direktivou Disallow: uvedeme cestu, která se nemá indexovat: /—code User-agent: * Disallow: /kosik \— Tímto vyhledávači říkáme, že má ignorovat všechny adresy začínající slovem /kosik. Robot vyhledávače tyto stránky vůbec nenavštíví a nezná tak jejich obsah. Pokud na ně ale vedou zpětné odkazy, vyhledávač je zpravidla eviduje, počítá jim rank a dokonce je může zobrazit ve výsledcích hledání. Takto se chová například Google. Protože nezná obsah dokumentu, ukáže ve výsledcích pouze odkaz bez titulku a popisku:

V případě, že o webu existuje záznam v katalogu DMOZ, může Google přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli jiný výsledek hledání. U Seznamu je situace, zdá se, jednodušší. Seznam chápe Disallow: tak, že má stránku ignorovat úplně. Nejen že ji tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích hledání.

Meta tag robots=“noindex“

Rozšířeným omylem je, že meta tag robots s parametrem noindex je to samé jako zákaz indexace v robots.txt. Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud totiž na stránku dáme noindex, vyhledávač stránku stáhne a zanalyzuje (na rozdíl od zákazu v robots.txt, kdy se robot na stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak u Google. /—code \— Mezi chováním Google a Seznamu je však jeden podstatný rozdíl. Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow. /—code\— Naproti tomu Seznam sice také následuje odkazy na stránce, odkazům ale nikdy nepředává žádný rank. A to bez ohledu na nastavení hodnoty follow či nofollow. V mnoha situacích tak může být výhodnější upřednostnit meta tag před souborem robots.txt. Google bude i odkazům na stránkách se zakázanou indexací počítat rank a Seznamu pomůžete nalézt některé dokumenty na webu rychleji.

Napsat komentář