A Microsoft acabou de anunciar uma nova prévia de um ambicioso programa em andamento: o CRIS, sigla para “Custom Recognition Intelligence Service”, uma ferramenta altamente customizável que pode dar a aplicativos uma funcionalidade parecida com a de Siri ou Cortana.
Além disso, a gigante está abrindo prévias públicas para dois conjuntos de APIs que disponibilizam aos desenvolvedores tecnologia para entender quem está falando ao gravador de voz e aquilo que aparece em textos.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Toda essa tecnologia vem de uma iniciativa chamada Project Oxford, que oferece, a desenvolvedores terceirizados, acesso a uma tecnologia de inteligência artificial que a Microsoft construiu de alguns anos para cá. Cabe lembrar que a Google também segue caminho parecido ao lançar a API Cloud Vision.
A API de reconhecimento de voz que a Microsoft quer implementar pode verificar e identificar os falantes, enquanto a API de vídeo é capaz de detectar movimentos e também identificar os rostos – mas isso em planos de fundo estáticos.
O CRIS, mencionado no início desta notícia, é a “nata” dessa categoria. “Essa ferramenta torna mais fácil o processo de customizar o reconhecimento de voz em ambientes desafiadores, como um local público barulhento. Uma empresa poderia utilizar isso, por exemplo, para ajudar uma equipe a melhor utilizar ferramentas de reconhecimento de voz em um piso com poluição sonora. A tecnologia também pode ajudar um app a entender melhor as pessoas que sempre tiveram problemas no reconhecimento de sua voz, como falantes não nativos [de um determinado idioma]”, afirmou a Microsoft.
Quando os desenvolvedores se inscrevem para usar o serviço, a empresa de Bill Gates pergunta se eles estão familiarizados com tecnologia de voz para texto, como HTK, Kaldi e SRILM, ou se são usuários comuns de tecnologias de assistência virtual da Google, da Apple e, é claro, da própria Microsoft.
O que você acha das tecnologias de reconhecimento de voz? Comente no Fórum do TecMundo.
Fontes