A Google quer tornar o Protocolo de Exclusão de Robôs (REP, na sigla em inglês), também conhecido como robots.txt, um padrão de internet — 25 anos após ele ter sido criado. O robots.txt é um arquivo de texto que fica hospedado na raiz do site e que contém instruções para os motores de busca; é através dele que os desenvolvedores escolhem os parâmetros que definem o conteúdo da página que deve ser rastreado e indexado. Desde 1994, ele é um dos componentes mais básicos e importantes da internet.
Fonte: Google/Divulgação
Por que o robots.txt nunca se tornou padrão?
Apesar de ter sido implementado desde os primórdios da web — a internet comercial só começou a se popularizar no Brasil em 1996 —, alguns desenvolvedores sempre acusaram o REP de ter um comportamento ambíguo. Adicionalmente, com o passar dos anos, ele começou a gerar preocupações com sua implementação, já que não funciona bem em casos específicos.
Ainda há outras situações em que protocolo gera dúvidas entre os desenvolvedores. Dois exemplos acontecem quando o editor de texto insere caracteres BOM nos arquivos robots.txt e quando esses arquivos têm centenas de megabytes, o que dificulta sua análise.
Como a Google pretende facilitar a padronização do REP?
A gigante das buscas quer tornar o robots.txt um padrão por todo esse tempo em que o protocolo tem sido utilizado, sendo que cerca de 500 milhões de sites dependem dele. O projeto de padronização não altera as regras criadas em 1994, mas as redefine para os dias atuais, além de criar outras, para os casos nos quais o protocolo ainda não atua.
Para facilitar o trabalho extra dos desenvolvedores, a Google, outras empresas de buscas, webmasters e o autor original do REP documentaram o funcionamento do protocolo e o submeteram ao IETF. Além disso, a companhia disponibilizará o código-fonte de sua ferramenta de análise de arquivos robots.txt usada em seus sistemas de produção.
Fontes