YouTube: legendas erradas têm linguagem adulta em vídeos infantis

25/02/2022 às 11:30

1 min de leitura

Imagem: Shutterstock

O algoritmo do YouTube que faz o reconhecimento de voz do que é falado no vídeo e transforma o conteúdo automaticamente em legendas possui falhas graves e perigosas em clipes voltados para crianças.

Uma pesquisa realizada por três cientistas de origem indiana e que será apresentada na conferência de Inteligência Artificial AAAI 2022, mostrou como o sistema de "closed captions" da plataforma de vídeos comete alguns erros e exibe palavras adultas em vídeos que têm como foco o público infantil.

Um exemplo de transcrição errada e automática.Fonte: Wired

A pesquisa envolveu mais de 7 mil vídeos de 24 canais de alta repercussão entre o público infantil, incluindo os fenômenos "Rob the Robot - Learning Videos For Children" e "Ryan’s World". Segundo o estudo, 1,3 mil palavras "tabu" foram identificadas, incluindo xingamentos, enquanto 1% dos vídeos tinha termos "altamente inapropriados".

Entre os exemplos, há momentos em que o sistema troca "corn" (milho, em inglês) por "porn" (que significa pornografia), ou até "brave" (a palavra valente) por "rape" (estuprar). Os termos "bitch", "penis" e "crap" também foram encontrados em alguns momentos.

Tem solução?

Os pesquisadores desenvolveram sistemas que corrigem as transcrições, mas essa automatização só conseguiu inserir a palavra certa em um terço dos casos.

Mais alguns exemplos de falha do algoritmo.Fonte: GitHub

Segundo a revista Wired, que consultou uma linguista para comentar o caso, uma lista de termos bloqueados pode resolver facilmente o problema, mas o algoritmo também precisa ser retrabalhado para evitar identificar essas palavras em primeiro lugar.

O artigo completo (em inglês) pode ser conferido neste link.