Após revelar o Nvidia ACE em 2023 para transformar NPCs de games em chatbots, a companhia revelou melhorias para essa tecnologia. O Ace agora terá uma versão revisada com uma SLM (Small Language Model) chamada Nemotron-4 4B, que oferece conversações melhores e foi testado com uma personagem do game Mecha BREAK.
A Nemotron-4 4B se destaca por ser uma linguagem de programação menor, permitindo que os recursos do ACE rodem nativamente na máquina sem pesar tanto, e ofereça tempos e resposta mais rápidos.
Esse modelo difere da tradicional LLM usada na tecnologia, que consegue agrupar um conjunto de dados maiores, mas com uma responsividade inferior.
Funcionamento do Nvidia Ace com a nova Small Language Model. (Imagem: Nvidia/Divulgação)Fonte: Nvidia
Segundo a Nvidia, mesmo que a Minitron seja teoricamente inferior em termos de capacidade por ser uma linguagem de programação pequena, ela ainda consegue fornecer respostas em quantidades similares ao de uma LLM.
Os desenvolvedores ainda conseguiram reduzir a carga de complexidade do ACE, fazendo que essa tecnologia possa rodar nativamente em GPUs com 2 GB de memória VRAM.
NPCs respondem até perguntas pessoais
O Nvidia ACE consegue transformar a fala dos jogadores em um comando de textos que os NPCs consegue entender e responder rapidamente. A demonstração utilizada pela Nvidia foi no game Mecha BREAK, no qual o jogador se dirige ao hangar dos robôs e começa a dialogar com a personagem Martel.
Pelos comandos de voz, o usuário pode pedir as instruções da missão, perguntar quais os equipamentos são mais indicados e solicitar mechas diferentes para usar. No teste, a responsividade das respostas da NPC impressiona, principalmente ao ser questionada sobre perguntas pessoais, como qual seria o seu tipo de comida preferida — apimentada, segundo ela.
Ideia da Nvidia é levar mais interatividade aos jogos por meio dos comandos de voz. (Imagem: Nvidia/Divulgação)Fonte: Nvidia
Com ajuda dos núcleos de IA presente nas placas de vídeo GeForce RTX, o Nvidia Ace recebe o sinal de voz do jogador e envia esses dados para uma base de dados, como a Nemotron-4 4B.
Lá, as perguntas serão interpretadas e respondidas em formato de texto, que passará por um converso de texto para áudio até chegar em um recurso que alinha a fala do NPC com sua expressão facial. Então, a resposta entre no motor do jogo e é renderizada no monitor.