Plik robots.txt

Utworzono: 2017-04-04
Ostatnia aktualizacja: 2017-04-13
Liczba odwiedzin posta: 497

Plik robots.txt jest ważnym elementem optymalizacji strony tzw. on-site. Z uwagi na popularność wyszukiwarki Google, będziemy omawiać głównie plik robots.txt obowiązujący u tego dostawcy wyszukiwania, choć mile widziane są pytania odnośnie innych wyszukiwarek np. BING czy Yahoo.
 

Specyfikacje pliku robots.txt

Streszczenie

W tym dokumencie szczegółowo opisujemy, jak Google obsługuje plik robots.txt, który pozwala webmasterom kontrolować sposób pobierania i indeksowania publicznie dostępnych witryn przez roboty indeksujące Google.

Podstawowe definicje

  • robot: usługa lub klient, który pobiera witryny. Ogólnie mówiąc, robot automatycznie i rekurencyjnie otwiera znane sobie adresy URL na hoście zawierającym treści dostępne dla standardowych przeglądarek. Zawartość pod nowo wykrytymi (na różne sposoby, np. dzięki linkom na pobieranych stronach lub plikom map witryn) adresami URL jest pobierana w ten sam sposób.
  • klient użytkownika: sposób identyfikacji konkretnego robota lub ich grupy.
  • dyrektywy: lista obowiązujących wskazówek dla robota lub ich grupy umieszczona w pliku robots.txt.
  • URL: adres URL (Uniform Resource Locator) zgodny z definicją w RFC 1738.
  • typowe dla Google: te elementy wynikają z implementacji obsługi pliku robots.txt w Google i mogą nie występować w innych wyszukiwarkach.

Obowiązywanie

Do wskazówek wymienionych w tym dokumencie stosują się wszystkie automatyczne roboty Google. Gdy klient uzyskuje dostęp do adresów URL w imieniu użytkownika (aby wykonać tłumaczenie, pobrać ręcznie zasubskrybowany kanał, przeanalizować złośliwe oprogramowanie itp.), te wskazówki mogą nie obowiązywać.

Lokalizacja pliku i zasięg działania

Plik robots.txt musi się znajdować w katalogu głównym hosta i być dostępny za pomocą odpowiedniego protokołu i numeru portu. Powszechnie akceptowane protokoły pliku robots.txt (i pobierania witryn) to „http” i „https”. Pozwalają one odczytać plik robots.txt bezwarunkowym żądaniem HTTP GET.

Typowe dla Google: Google akceptuje pliki robots.txt i stosuje się do nich także w przypadku serwerów FTP. Aby odczytać plik robots.txt na serwerze FTP, korzystamy z protokołu FTP i anonimowego loginu.

Dyrektywy wymienione w pliku robots.txt odnoszą się tylko do hosta, protokołu i numeru portu używanych do jego udostępniania.

Uwaga: wielkość liter w adresie URL pliku robots.txt (tak jak w innych adresach URL) jest rozróżniana.

Przykład 

Przykładowy wpis w pliku robots.txt umieszczony w katalogu strony na serwerze
User-agent: *
Disallow: /cgi-bin/

Sitemap: https:/technet-media.pl/sitemap.xml


15 najczęściej popełnianych błędów w pliku robots.txt:

1. Implementacja pliku robots.txt, kiedy nie jest to potrzebne.

2. Brak blokowania adresów URL z 24 godzinnym wyprzedzeniem, umożliwiający zindeksowanie treści między kolejnymi sprawdzeniami pliku przez robota wyszukiwarki.

3. Blokowanie adresów URL, mające zapobiec jego pojawianiu się w wynikach wyszukiwania, które jest nieskuteczne (służy do tego m.in. metatag noindex).

4. Blokowanie nieistniejących już adresów URL w celu usunięcia ich z wyników wyszukiwania (takie adresy powinny być dostępne dla robotów i zwracać kod HTTP 410).

5. Blokowanie przekierowanych adresów URL, uniemożliwiające robotom wykrycie przekierowania..

6. Blokowanie adresów URL z meta tagiem noindex/nofollow, znacznikiem rel="canonical" czy nagłówkiem X-Robots-Tag, uniemożliwiające robotom odczytanie ich zawartości.

7. Próby komunikowania się z Google w komentarzach, które są ignorowane przez roboty.

8. Blokowanie poufnych informacji (takie informacje powinny być dostępne tylko po zalogowaniu).

9. Stosowanie skomplikowanych reguł, które często prowadzą do pomyłek.

10. Zwracanie przez plik kodu odpowiedzi HTTP innego niż 200 lub 404, powodujące odłożenie w czasie indeksowania witryny.

11. Omyłkowe zwracanie przez plik kodu HTTP 403. W takim przypadku Googlebot może uznać za bezpieczne indeksowanie wszystkich adresów URL witryny.

12. Nadpisywanie dyrektyw User-Agent - kolejność tych dyrektyw w pliku ma znaczenie.

13. Nie zwracanie uwagi na wielkość liter, która ma znaczenie w przypadku adresu URL pliku robots.txt oraz adresów w dyrektywach pliku.

14. Usuwanie adresów URL pliku robots.txt z wyników wyszukiwania.

15. Stosowanie dyrektywy Crawl-delay, która jest ignorowana przez Google (w tym celu należy korzystać z Narzędzi dla webmasterów).


Powrót


Dodaj komentarz