Čas od času potřebujeme říct vyhledávačům, že některé stránky se nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy přicházejí v podstatě tři způsoby:
- použít meta tag
robots
s hodnotounoindex
, - zablokovat stránku v
robots.txt
, - na všechny odkazy směřující na danou stránku navěsit atribut
nofollow
.
Nofollow u odkazů
Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení ve výsledcích. Některé vyhledávače také mohou chápat nofollow
jako pouhý zákaz předání ranku, nikoliv jako zákaz následování při indexaci. V neposlední řadě se stránka může teoreticky dostat do indexu i jinak, například z toolbarů nebo přidáním do submit formuláře. Tato metoda tedy naše původní očekávání rozhodně nesplňuje a v podstatě nemá cenu se jí dále zabývat.
Robots.txt
Soubor robots.txt
nám dává do ruky poměrně silný nástroj pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za direktivou Disallow:
uvedeme cestu, která se nemá indexovat: /—code User-agent: * Disallow: /kosik \— Tímto vyhledávači říkáme, že má ignorovat všechny adresy začínající slovem /kosik
. Robot vyhledávače tyto stránky vůbec nenavštíví a nezná tak jejich obsah. Pokud na ně ale vedou zpětné odkazy, vyhledávač je zpravidla eviduje, počítá jim rank a dokonce je může zobrazit ve výsledcích hledání. Takto se chová například Google. Protože nezná obsah dokumentu, ukáže ve výsledcích pouze odkaz bez titulku a popisku:
V případě, že o webu existuje záznam v katalogu DMOZ, může Google přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli jiný výsledek hledání. U Seznamu je situace, zdá se, jednodušší. Seznam chápe Disallow:
tak, že má stránku ignorovat úplně. Nejen že ji tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích hledání.
Meta tag robots=“noindex“
Rozšířeným omylem je, že meta tag robots
s parametrem noindex
je to samé jako zákaz indexace v robots.txt
. Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud totiž na stránku dáme noindex
, vyhledávač stránku stáhne a zanalyzuje (na rozdíl od zákazu v robots.txt
, kdy se robot na stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak u Google. /—code \— Mezi chováním Google a Seznamu je však jeden podstatný rozdíl. Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow
. /—code\— Naproti tomu Seznam sice také následuje odkazy na stránce, odkazům ale nikdy nepředává žádný rank. A to bez ohledu na nastavení hodnoty follow
či nofollow
. V mnoha situacích tak může být výhodnější upřednostnit meta tag před souborem robots.txt
. Google bude i odkazům na stránkách se zakázanou indexací počítat rank a Seznamu pomůžete nalézt některé dokumenty na webu rychleji.