Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124


A startup indiana Sarvam AI promete estabelecer novos padrões de reconhecimento de fala para línguas indianas com o lançamento do Sarvam Audio. Segundo a empresa, o sistema de transcrição foi treinado para compreender a complexidade da comunicação do mundo real.
Classificada como uma extensão do Sarvam 3B — modelo de linguagem com 3 bilhões de parâmetros —, a ferramenta se destaca por oferecer suporte a 22 idiomas indianos, além do inglês. Um de seus principais diferenciais é a capacidade de lidar com o que é conhecido como code-mixing.
Isso significa que a plataforma de inteligência artificial consegue transcrever com alta eficiência frases em que o falante mistura palavras de diferentes idiomas. Essa prática é comum em países multilíngues, mas ainda representa um desafio para sistemas tradicionais de transcrição.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
A companhia afirma ainda que o Sarvam Audio foi projetado não apenas para transformar áudio em texto, mas também para identificar o contexto da fala e otimizar o resultado final da transcrição.
“O contexto é essencial para decodificar áudio do mundo real. A estrutura baseada em LLM permite que o Sarvam Audio aproveite o contexto fornecido por meio de descrições textuais ou do histórico de conversas para melhorar significativamente a qualidade da transcrição em cenários complexos”, destaca a Sarvam AI em comunicado.
Outro diferencial da IA de transcrição da Sarvam é permitir que o usuário escolha o formato final do texto. O sistema disponibiliza cinco modos distintos:
O Sarvam Audio também promete utilizar memória conversacional para evitar confusão entre termos que soam de forma semelhante durante a transcrição. Na prática, isso significa que o sistema consegue interpretar o que foi dito com base no contexto das falas anteriores.
Além disso, a ferramenta de IA consegue identificar quem está falando em uma gravação. O material de anúncio indica que o sistema é capaz de processar áudios de até 60 minutos, atribuindo falas a até oito participantes de uma reunião com alto nível de precisão.
Esse recurso é especialmente útil no processamento de reuniões, entrevistas e outras conversas que envolvem múltiplos participantes e até mesmo falas sobrepostas.

Outra funcionalidade que pode diferenciar o Sarvam Audio de seus concorrentes é o recurso chamado Speech to Command, que elimina a necessidade de transcrever o áudio para, em seguida, outro modelo interpretar o texto e compreender o contexto — um processo que pode gerar atrasos e erros.
Em vez disso, o sistema da startup indiana realiza uma operação de “ponta a ponta”, sendo capaz de ouvir o áudio e extrair simultaneamente os dados técnicos e comandos necessários para executar ações de forma quase imediata.
Em termos de precisão, a Sarvam AI afirma que sua solução supera modelos consolidados, como o GPT-4o Transcribe e o Gemini 3 Flash, em benchmarks específicos. Os testes indicariam maior eficácia na preservação de nomes próprios, endereços e na diferenciação de palavras com sonoridade semelhante.
A startup informa que o Sarvam Audio estará disponível “em breve” no Sarvam Dashboard, mas ainda não divulgou detalhes sobre preços ou modelos de acesso ao sistema.
Leia mais:
VÍDEO: O Gemini é muito bom (e isso é um problema)
Leia a matéria no Canaltech.