A OpenAI lançou na segunda-feira (7) o GPTBox, rastreador que será utilizado para vasculhar sites em busca de conteúdos para melhorar o desenvolvimento dos modelos de inteligência artificial (IA) da empresa. O recurso pode ajudar a otimizar as IAs generativas existentes em questões como precisão e segurança.
O GPTBox tem a capacidade de filtrar conteúdos disponíveis apenas por meio de assinaturas pagas enquanto vasculha a internet em busca de informações disponíveis publicamente. Além disso, ele pode excluir as fontes que violem suas políticas ou coletem dados pessoais.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
O rastreador vai alimentar o ChatGPT, em suas diferentes versões.Fonte: Pexels
“As páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas”, ressaltou a OpenAI.
Como bloquear o GPTBot?
Caso queiram, os proprietários de sites podem impedir o rastreador web da OpenAI de coletar dados em suas páginas. Para negar o acesso da ferramenta aos conteúdos, é necessário adicionar um comando específico ao arquivo de texto Robots.txt do site, que traz instruções sobre o que pode ou não ser acessado.
Neste caso, basta adicionar o seguinte comando:
User-agent: GPTBot
Disallow: /
Outra possibilidade para quem não quer permitir o rastreamento feito pelo GPTBot em suas páginas é bloquear o acesso pelo IP do rastreador. As instruções para este procedimento podem ser conferidas no site da OpenAI.
- Leia também: OpenAI descontinua ferramenta do ChatGPT que detectava se um texto era ou não escrito por IA
Também é possível personalizar o acesso do GPTBot, liberando o rastreamento em apenas partes do site. Para tanto, adicione o token GPTBot ao Robots.txt desta forma:
1 User-agent: GPTBot
2 Allow: /directory-1/
3 Disallow: /directory-2/
Categorias