A Meta está usando dois novos bots para rastrear a web em busca de dados que serão utilizados no desenvolvimento e melhoria dos modelos de inteligência artificial que alimentam seus produtos. Eles foram lançados no final de julho de maneira bastante discreta, como destacou o Business Insider na última quarta-feira (21).
Essas ferramentas contêm tecnologia que facilita escapar dos bloqueios implementados por proprietários de sites que não têm interesse em ver seus dados coletados pela dona do Facebook. Um dos rastreadores é o “Meta-ExternalAgent”, capaz de realizar a indexação direta dos conteúdos capturados.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
- Leia também: Web scrapping: conheça a técnica de coleta de dados
Os dados coletados pelos bots são usados no treinamento das ferramentas de IA da marca. (Imagem: Getty Images)Fonte: Getty Images/Reprodução
O trabalho desse bot é coletar dados para o treinamento de IA e melhorar produtos, conforme a descrição encontrada em uma página da gigante da tecnologia. Já o segundo, denominado “Meta-ExternalFetcher”, busca informações para aprimorar o assistente de IA da companhia e links para funções específicas do produto.
Ainda conforme o relatório, os novos rastreadores da Meta são bastante eficazes em burlar restrições impostas por meio do arquivo robots.txt. O código, utilizado desde a década de 1990, pode conter instruções para impedir a raspagem automatizada de dados, mas muitas empresas não têm respeitado as regras.
Melhorias em relação ao bot anterior
Especializada na detecção de conteúdo de IA, a Originality.ai disse que apenas 1,5% dos principais sites estão conseguindo bloquear o bot Meta-ExternalAgent. Por sua vez, o Meta-ExternalFetcher é bloqueado por menos de 1% dessas páginas, de acordo com a startup.
O desempenho apresentou uma melhoria considerável na comparação com o FacebookBot, usado há anos pela companhia na coleta de dados para alimentar grandes modelos de linguagem da Meta e recursos de reconhecimento de fala. Essa versão mais antiga é bloqueada em cerca de 10% dos sites.
Um porta-voz da empresa chefiada por Mark Zuckerberg confirmou à publicação que ela atualizou, recentemente, a orientação sobre como excluir um domínio da raspagem feita pelos bots relacionados à IA da Meta, atendendo aos editores não interessados no uso de seus conteúdos.
Fontes
Categorias