O Robots.txt é um arquivo no formato texto (bloco de notas) que trabalha como um filtro para os robôs ou crawlers dos mecanismos de busca. Ele avisa aos crawlers quais páginas e diretórios não devem ser indexados, ou seja, devem excluídos do processo de rastreamento, evitando que algum conteúdo restrito fique disponível na busca orgânica (ou SERP). O Robots.txt deve estar localizado na pasta raiz do site para ser facilmente encontrado pelos crawlers.
Os principais comandos utilizados no arquivo robots.txt são:
– User-agent: Lista quais robôs devem seguir as regras indicadas. Exemplo: Googlebot (Crawler do Google); Slurp (Crawler do Yahoo); * (todos os mecanismos)
– Disallow: Orienta os crawlers sobre quais páginas não devem ser incluídas no índice.
– Allow: Indica qual página ou diretório pode ter seu conteúdo indexado, mas eles são, por definição, sempre permitidos.
– Sitemap: Indica o caminho para o sitemap.xml.
Para saber mais confira o suporte do Google.