Pesquisadores encontram formas de burlar segurança do ChatGPT e outras IAs

Explorando vulnerabilidades, os especialistas fizeram os chatbots gerarem quaisquer tipos de conteúdos

André Luiz Dias Gonçalves

schedule28/07/2023, às 13:25

Fonte: Unsplash

Imagem de Pesquisadores encontram formas de burlar segurança do ChatGPT e outras IAs no tecmundo

Pesquisadores da Universidade Carnegie Mellon e do Center for AI Safety, nos Estados Unidos, afirmam ter encontrado formas de burlar a segurança das inteligências artificiais generativas mais populares, fazendo-as gerar quaisquer tipos de conteúdos. Os detalhes estão em um relatório divulgado na quinta-feira (27).

De acordo com os especialistas, chatbots como ChatGPT e Google Bard têm vulnerabilidades que podem ser exploradas “com facilidade”, desativando bloqueios habilitados pelos desenvolvedores. A partir daí, as ferramentas ganham permissão para gerar desinformação, discursos de ódio e outros tipos de conteúdos considerados tóxicos.

smart_display

Nossos vídeos em destaque

Leia mais: OpenAI descontinua ferramenta do ChatGPT que detectava se um texto era ou não escrito por IA

As falhas na segurança permitiram desbloquear o ChatGPT e o Bard para gerar qualquer conteúdo.

O jailbreak das IAs generativas consiste, basicamente, em adicionar longos sufixos de caracteres aos prompts inseridos nas plataformas da OpenAI, Google, Anthropic e outras. Não é exigido nenhum conhecimento avançado para desbloquear todo o potencial da tecnologia, embora o método não vá funcionar sempre.

Níveis de resistência

As taxas de sucesso das tentativas de enganar as IAs para gerar qualquer tipo de conteúdo variaram de acordo com o modelo. O mais resistente foi o chatbot Claude, da Anthropic, no qual os especialistas conseguiram burlar a segurança em apenas 2,1% das vezes.

Já na IA de código aberto Vicuna, baseada nos modelos Llama da Meta e ChatGPT, o jailbreak foi feito com sucesso em 99% das tentativas, apresentando o pior índice. Por sua vez, o ChatGPT, nas versões GPT-3 e GPT-4, foi “quebrado” em 84% das vezes, segundo a pesquisa.

Leia também: IAs burras? Microsoft Bing e Google Bard caem em informação falsa

Os pesquisadores entraram em contato com as empresas que tiveram seus modelos testados, relatando os resultados. Ao The New York Times, a porta-voz da OpenAI, Hannah Wong, disse que a startup está avaliando o estudo e tem “trabalhado constantemente” para reforçar a segurança da sua tecnologia contra métodos de jailbreak.