Jesteś tutaj: Strona Główna » SEO » robots.txt
robots.txt
robots.txt to plik tekstowy, który znajduje się zawsze w głównym katalogu domeny (/robots.txt) i jest używany przez webmasterów do przechowywania instrukcji dla robotów internetowych. Z angielskiego całość określana jest mianem The Robots Exclusion Protocol. Dyrektywy zapisane w pliku mają zastosowanie globalnie. Instrukcje dla robotów dotyczące poszczególnych dokumentów można przekazywać także poprzez tag meta robots.
Zasada działania jest jest następująca - robot znajduje link do jakiejkolwiek strony w obrębie domeny (np. http://www.example.com/strona.html i jeśli chce go odwiedzić, to zanim to zrobi pobiera najpierw plik http://www.example.com/robots.txt. Podstawowa struktura pliku wygląda następująco:
User-agent: * Disallow: /
Gwiazdka w linii User-agent: * oznacza dziką kartę, a tym samym zastosowanie do wszystkich robotów. Linia Disallow: / informuje robota, że nie powinien odwiedzać żadnej strony w obrębie witryny.
Korzystając z dobrodziejstw /robots.txt należy pamiętać o tym, że:
- Roboty, zwłaszcza te skanujące w poszukiwaniu dziur w zabezpieczeniach witryn internetowych, mogą ignorować zapisy z pliku. Podobnie zachowują się automaty gromadzące adresy email i inne dane teleadresowe.
- Zawartość pliku jest publicznie dostępna - plik
robots.txtnie jest metodą zabezpieczenia dostępu do zasobów, a listowanie konkretnych plików może skłonić dociekliwego użytkownika do obejrzenia właśnie ich.
Umieszczanie pliku na serwerze
Jak wspomniano wcześniej, plik robots.txt musi znajdować się w głównym katalogu witryny.
Robot, wysyłając żądanie o plik robots.txt, posługuje się żądaniem GET /robots.txt. Posiadając więc serwisy ze strukturą opartą na katalogach (np www.example.com/sklep/) należy pamiętać, że robot nie będzie pobierał pliku www.example.com/sklep/robots.txt lecz www.example.com/robots.txt.
Konkretna lokalizacja w odniesieniu do struktury plików serwera zależy od jego typu. Użytkownicy rodziny systemów Linux umieszczają swoje witryny zazwyczaj w folderze /home/nazwauzytkownika/public_html/.
Kolejną istotną rzeczą jest wielkość liter w nazwie pliku. Zawsze należy używać małych liter, bowiem nazwa robots.txt w oczach serwera HTTP różni się od Robots.TXT.
Składnia używana w dyrektywach robots.txt
Składnia robots.txt wpisywana jest w następującej formie: <dyrektywa>:<opcjonalnaspacja><wartosc><opcjonalnaspacja>
- User-agent - wartość wpisu precyzuje do jakiego kierowana jest dyrektywa.
- Disallow - zakazuje robotowi dostępu do pliku bądź katalogu, stanowiącego wartość dyrektywy.
- Allow - zezwala robotowi na dostęp do pliku bądź katalogu, stanowiącego wartość dyrektywy.
- Sitemap - nowa dyrektywa, wprowadzona w życie w 2007 roku, jako wartość przyjmująca pełny adres URL mapy witryny.
Przykładowe implementacje
Zabranianie dostępu wszystkim robotom do całej witryny
User-agent: * Disallow: /
Zezwalanie robotom na pełny dostęp
User-agent: * Disallow:
Zamiast powyższego wpisu można po prostu utworzyć pusty plik robots.txt.
Zabranianie dostępu wszystkim robotom do wybranych części witryny
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /pr0n/
Wykluczanie pojedynczego robota
User-agent: Googlebot Disallow: /
Zezwalanie na dostęp pojedynczemu robotowi
User-agent: Googlebot Disallow: User-agent: * Disallow: /