Robots.txt to jeden z pierwszych plików sprawdzanych przez robota indeksującego stronę. To właśnie w tym pliku możemy ustawić, które strony serwisu mają być indeksowane przez roboty, a które nie.
Plik robots.txt składa się z rekordów oddzielonych pustymi liniami. Rekord składa się z:
-pola User-agent,
-pól Disallow.
W pliku robots.txt można również umieszczać komentarze zaczynające się od #.
Przykłady zawartości plików robots.txt:
-gdy cała witryna ma być indeksowana (tak się dzieje również domyślnie, gdy nie ma pliku robots.txt):
User-agent: *
Dissalow:
-gdy cała witryna ma być nieindeksowana:
User-agent: *
Disallow: /
-gdy indeksowany ma być wybrany folder:
User-agent: *
Disallow: /wybrany_folder/
-gdy indeksowany ma być wybrany plik:
User-agent: *
Disallow: /wybrany_folder/plik.html.
Jeśli nie ma możliwości utworzenia pliku robots.txt (np. nie ma takiej możliwości na naszym koncie) można użyć znaczników META w części HEAD. Znacznik typu Robots może zawierać następujące dyrektywy:
-index – strona ma być indeksowana,
-follow – roboty mają podążać za linkami znajdującymi się na stronie,
-noindex – strona ma nie być indeksowana,
-nofollow - roboty mają nie podążać za linkami na stronie,
-all – strona ma być indeksowana i roboty mają podążać za linkami (równoznaczne z index, follow),
-none - strona ma nie być indeksowana i roboty mają nie podążać za linkami (równoznaczne z, noindex, nofollow),
-noarchive – strona ma być nie archiwizowana w cache.
Przykłady:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,nofollow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="noarchive">