O que é Sarvam Audio, IA para transcrever mensagens e gravações de voz?

O que é Sarvam Audio, IA para transcrever mensagens e gravações de voz? – Canaltech

A startup indiana Sarvam AI promete estabelecer novos padrões de reconhecimento de fala para línguas indianas com o lançamento do Sarvam Audio. Segundo a empresa, o sistema de transcrição foi treinado para compreender a complexidade da comunicação do mundo real.

Classificada como uma extensão do Sarvam 3B — modelo de linguagem com 3 bilhões de parâmetros —, a ferramenta se destaca por oferecer suporte a 22 idiomas indianos, além do inglês. Um de seus principais diferenciais é a capacidade de lidar com o que é conhecido como code-mixing.

Isso significa que a plataforma de inteligência artificial consegue transcrever com alta eficiência frases em que o falante mistura palavras de diferentes idiomas. Essa prática é comum em países multilíngues, mas ainda representa um desafio para sistemas tradicionais de transcrição.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

A companhia afirma ainda que o Sarvam Audio foi projetado não apenas para transformar áudio em texto, mas também para identificar o contexto da fala e otimizar o resultado final da transcrição.

“O contexto é essencial para decodificar áudio do mundo real. A estrutura baseada em LLM permite que o Sarvam Audio aproveite o contexto fornecido por meio de descrições textuais ou do histórico de conversas para melhorar significativamente a qualidade da transcrição em cenários complexos”, destaca a Sarvam AI em comunicado.

Controle sobre a formatação do texto transcrito

Outro diferencial da IA de transcrição da Sarvam é permitir que o usuário escolha o formato final do texto. O sistema disponibiliza cinco modos distintos:

Transcrição literal: registra cada palavra exatamente como foi dita, sendo indicada para serviços de atendimento ao cliente;
Normalizado sem code-mixing: apresenta o texto com pontuação adequada e conversão de números falados em dígitos, recomendado para e-commerce;
Normalizado com code-mixing: considerado o “melhor dos dois mundos”, mantém o alfabeto nativo, mas preserva termos em inglês no alfabeto romano. É ideal para bancos e fintechs;
Saída romanizada: transcreve todo o áudio para o alfabeto romano, tornando o texto legível para qualquer pessoa, sendo indicado para WhatsApp Business e interações via chat;
Tradução inteligente: permite que o usuário fale em qualquer idioma indiano e receba a transcrição integralmente em inglês, alternativa voltada a criadores de conteúdo que desejam alcançar um público global.

Memória conversacional e múltiplos falantes

O Sarvam Audio também promete utilizar memória conversacional para evitar confusão entre termos que soam de forma semelhante durante a transcrição. Na prática, isso significa que o sistema consegue interpretar o que foi dito com base no contexto das falas anteriores.

Além disso, a ferramenta de IA consegue identificar quem está falando em uma gravação. O material de anúncio indica que o sistema é capaz de processar áudios de até 60 minutos, atribuindo falas a até oito participantes de uma reunião com alto nível de precisão.

Esse recurso é especialmente útil no processamento de reuniões, entrevistas e outras conversas que envolvem múltiplos participantes e até mesmo falas sobrepostas.

Reunião — Sarvam Audio consegue identificar com eficiência a voz de até 8 falantes presentes em uma reunião (Imagem: Pexels/Anna Shvets)

Comandos diretos e desempenho frente a outros modelos

Outra funcionalidade que pode diferenciar o Sarvam Audio de seus concorrentes é o recurso chamado Speech to Command, que elimina a necessidade de transcrever o áudio para, em seguida, outro modelo interpretar o texto e compreender o contexto — um processo que pode gerar atrasos e erros.

Em vez disso, o sistema da startup indiana realiza uma operação de “ponta a ponta”, sendo capaz de ouvir o áudio e extrair simultaneamente os dados técnicos e comandos necessários para executar ações de forma quase imediata.

Em termos de precisão, a Sarvam AI afirma que sua solução supera modelos consolidados, como o GPT-4o Transcribe e o Gemini 3 Flash, em benchmarks específicos. Os testes indicariam maior eficácia na preservação de nomes próprios, endereços e na diferenciação de palavras com sonoridade semelhante.

Disponibilidade

A startup informa que o Sarvam Audio estará disponível “em breve” no Sarvam Dashboard, mas ainda não divulgou detalhes sobre preços ou modelos de acesso ao sistema.

Leia mais:

VÍDEO: O Gemini é muito bom (e isso é um problema)