robots.txt

robots.txt to plik tekstowy, który znajduje się zawsze w głównym katalogu domeny (/robots.txt) i jest używany przez webmasterów do przechowywania instrukcji dla robotów internetowych. Z angielskiego całość określana jest mianem The Robots Exclusion Protocol. Dyrektywy zapisane w pliku mają zastosowanie globalnie. Instrukcje dla robotów dotyczące poszczególnych dokumentów można przekazywać także poprzez tag meta robots.

Zasada działania jest jest następująca - robot znajduje link do jakiejkolwiek strony w obrębie domeny (np. http://www.example.com/strona.html i jeśli chce go odwiedzić, to zanim to zrobi pobiera najpierw plik http://www.example.com/robots.txt. Podstawowa struktura pliku wygląda następująco:

User-agent: *
Disallow: /

Gwiazdka w linii User-agent: * oznacza dziką kartę, a tym samym zastosowanie do wszystkich robotów. Linia Disallow: / informuje robota, że nie powinien odwiedzać żadnej strony w obrębie witryny.

Korzystając z dobrodziejstw /robots.txt należy pamiętać o tym, że:

  • Roboty, zwłaszcza te skanujące w poszukiwaniu dziur w zabezpieczeniach witryn internetowych, mogą ignorować zapisy z pliku. Podobnie zachowują się automaty gromadzące adresy email i inne dane teleadresowe.
  • Zawartość pliku jest publicznie dostępna - plik robots.txt nie jest metodą zabezpieczenia dostępu do zasobów, a listowanie konkretnych plików może skłonić dociekliwego użytkownika do obejrzenia właśnie ich.

Umieszczanie pliku na serwerze

Jak wspomniano wcześniej, plik robots.txt musi znajdować się w głównym katalogu witryny.

Robot, wysyłając żądanie o plik robots.txt, posługuje się żądaniem GET /robots.txt. Posiadając więc serwisy ze strukturą opartą na katalogach (np www.example.com/sklep/) należy pamiętać, że robot nie będzie pobierał pliku www.example.com/sklep/robots.txt lecz www.example.com/robots.txt.

Konkretna lokalizacja w odniesieniu do struktury plików serwera zależy od jego typu. Użytkownicy rodziny systemów Linux umieszczają swoje witryny zazwyczaj w folderze /home/nazwauzytkownika/public_html/.

Kolejną istotną rzeczą jest wielkość liter w nazwie pliku. Zawsze należy używać małych liter, bowiem nazwa robots.txt w oczach serwera HTTP różni się od Robots.TXT.

Składnia używana w dyrektywach robots.txt

Składnia robots.txt wpisywana jest w następującej formie: <dyrektywa>:<opcjonalnaspacja><wartosc><opcjonalnaspacja>

  • User-agent - wartość wpisu precyzuje do jakiego kierowana jest dyrektywa.
  • Disallow - zakazuje robotowi dostępu do pliku bądź katalogu, stanowiącego wartość dyrektywy.
  • Allow - zezwala robotowi na dostęp do pliku bądź katalogu, stanowiącego wartość dyrektywy.
  • Sitemap - nowa dyrektywa, wprowadzona w życie w 2007 roku, jako wartość przyjmująca pełny adres URL mapy witryny.

Przykładowe implementacje

Zabranianie dostępu wszystkim robotom do całej witryny

Zezwalanie robotom na pełny dostęp

User-agent: *
Disallow:

Zamiast powyższego wpisu można po prostu utworzyć pusty plik robots.txt.

Zabranianie dostępu wszystkim robotom do wybranych części witryny

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /pr0n/

Wykluczanie pojedynczego robota

User-agent: Googlebot
Disallow: /

Zezwalanie na dostęp pojedynczemu robotowi

User-agent: Googlebot
Disallow:
 
User-agent: *
Disallow: /

Linki zewnętrzne

Powiązane artykuły z Leksykonu SEO i SEM


Nawigacja
Osobiste narzędzia