Se você utiliza a internet desde seus primórdios, deve lembrar do "Cadê?", um dos primeiros sites de busca lançado no Brasil nos meados de 1995. Para o seu site ser indexado no "Cadê?", era necessário preencher um cadastro e categoriza-lo manualmente, logo após o cadastro, você esperava mais ou menos umas três semanas (acredite se quiser!) para que ele fosse indexado.

Nos dias de hoje os buscadores trabalham de uma forma completamente diferente, eles possuem robôs que através de um algoritmo, rodam a internet, varrem os sites e indexam praticamente todo o conteúdo disponível. 

Diante disso, como controlar o que pode ou não ser indexado do seu site pelos buscadores? Confira no artigo de hoje.

O que é robots.txt?

Robots.txt é um tipo de arquivo no formato de txt que é usado como uma espécie de filtro para os sites de busca. Basicamente os sites de busca possuem robôs que varrem as páginas de sites. Pelos robots.txt é possível controlar as autorizações de acesso dos robôs de para certas páginas ou pastas.

Esse arquivo controla qual informação de um site, por exemplo, vai ou não ser indexada pelos sites de busca. A configuração do arquivo é muito simples e deve estar na pasta raiz da hospedagem do site.

Qual a vantagem de se usar o robots.txt?

O robots.txt é um arquivo importantíssimo para todo o planejamento SEO, afinal é por ele que os sites de buscas conseguem perceber se podem ou não acessar um determinado arquivo ou diretório de um site.

Criar um arquivo robots.txt traz a vantagem de ter o controle do que os sites de buscas irão acessar no seu site e consequentemente indexar. Pode ser muito útil para diagnosticar possíveis problemas na indexação ou outro problema no site previamente.

Outra vantagem é que ao configurar um arquivo robots.txt, o SEO pode impedir que o Google leia todo o site evitando que ele se depare com algum erro no servidor. Não é necessário ter vários arquivos robots.txt, um para cada site é o suficiente, se caso tiver outro arquivo ele não será acessado.

Dicas sobre o uso de Robots.txt

  • Não espere que o robots.txt te informe sobre o fato de sua página ser removida do índice dos sites de busca;
  • Se caso o URL já foi indexado anteriormente por fontes externas, o arquivo robots.txt não vai conseguir evitar que os robôs de busca usem esses dados para analisar a página e formular o título e a descrição. Por isso, utilizar uma regra para a página não significa que ela desapareça do site de busca. Existem outras maneiras para se remover uma página do site de busca e não é pelo robots.txt.
  • Os robôs de sites de busca fazem apenas o especificado no robots.txt. Se caso você usar uma interpretação geral para todos os robôs e outra para um robô específico, tenha noção que o site de busca que você especificou irá ler apenas o código destinado e irá ignorar todas as outras.
  • Existem alguns comandos específicos muito úteis geralmente em arquivo robots.txt usa duas tags (palavras-chaves), User-agent que significa agente de usuário para determinar qual robô e Dissallow que significa bloquear, que ajuda a definir qual URL específica não pode ser acessada pelos robôs do Google. Para dar acesso à determinada página que seja dessa URL proibida, você pode usar o comando Allow.
  • Procure dar instruções certas para o seu arquivo robots.txt. Dentro de um arquivo robots.txt, os robôs tendem a ler as instruções da esquerda para a direita, o que significa que tudo que aparece após o sinal de / é bloqueado ou permitido. Por exemplo, se você usar o comando "Disallow: /r" tudo que começar com a letra "r" será ignorado pelos robôs.

E o seu site já utiliza o arquivo robots.txt? Seu site possui um bom SEO? Se tiver alguma dúvida sobre como posicionar o seu site, baixe o ebook gratuito 'Checklist de SEO'.

André Cintra
André Cintra
André Cintra

Paulistano e CEO da Post Digital, empresa que fundou no inicio de 2010, com a idéia principal de desenvolver projetos digitais estratégicos e focados em resultado (conversões). Trabalha profissionalmente com internet desde a época da bolha, já desenvolveu mais de 300 projetos sob medida, é certificado Google para rede de pesquisa, rede de display e analytics e é especialista em SEO.