Pesquisadores da Universidade Carnegie Mellon e do Center for AI Safety, nos Estados Unidos, afirmam ter encontrado formas de burlar a segurança das inteligências artificiais generativas mais populares, fazendo-as gerar quaisquer tipos de conteúdos. Os detalhes estão em um relatório divulgado na quinta-feira (27).
De acordo com os especialistas, chatbots como ChatGPT e Google Bard têm vulnerabilidades que podem ser exploradas “com facilidade”, desativando bloqueios habilitados pelos desenvolvedores. A partir daí, as ferramentas ganham permissão para gerar desinformação, discursos de ódio e outros tipos de conteúdos considerados tóxicos.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
- Leia mais: OpenAI descontinua ferramenta do ChatGPT que detectava se um texto era ou não escrito por IA
As falhas na segurança permitiram desbloquear o ChatGPT e o Bard para gerar qualquer conteúdo.Fonte: Unsplash
O jailbreak das IAs generativas consiste, basicamente, em adicionar longos sufixos de caracteres aos prompts inseridos nas plataformas da OpenAI, Google, Anthropic e outras. Não é exigido nenhum conhecimento avançado para desbloquear todo o potencial da tecnologia, embora o método não vá funcionar sempre.
Conforme o relatório, foi possível fazer os chatbots gerarem conteúdos sobre os mais variados tipos de assuntos sensíveis, de instruções para criar armas biológicas a métodos de desencadear uma guerra global, além de orientações sobre como cometer assassinatos. “Isso levanta preocupações sobre a segurança de tais modelos”, escreveram os autores do estudo.
Níveis de resistência
As taxas de sucesso das tentativas de enganar as IAs para gerar qualquer tipo de conteúdo variaram de acordo com o modelo. O mais resistente foi o chatbot Claude, da Anthropic, no qual os especialistas conseguiram burlar a segurança em apenas 2,1% das vezes.
Já na IA de código aberto Vicuna, baseada nos modelos Llama da Meta e ChatGPT, o jailbreak foi feito com sucesso em 99% das tentativas, apresentando o pior índice. Por sua vez, o ChatGPT, nas versões GPT-3 e GPT-4, foi “quebrado” em 84% das vezes, segundo a pesquisa.
Os pesquisadores entraram em contato com as empresas que tiveram seus modelos testados, relatando os resultados. Ao The New York Times, a porta-voz da OpenAI, Hannah Wong, disse que a startup está avaliando o estudo e tem “trabalhado constantemente” para reforçar a segurança da sua tecnologia contra métodos de jailbreak.
Categorias