Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124


Os chatbots de IA que respondem com um tom mais amigável podem entregar respostas menos precisas e concordar mais com o usuário, mesmo quando ele está errado. Essa é a conclusão de um estudo publicado na revista Nature, que avaliou como o treinamento para torná-los mais empáticos e simpáticos afeta o desempenho factual de modelos de linguagem em tarefas sensíveis.
A pesquisa, feita por Lujain Ibrahim, Franziska Sofia Hafner e Luc Rocher, analisou cinco modelos populares, como GPT-4o, Llama, Mistral-Small e Qwen. O estudo mostrou que os modelos ajustados para parecer mais acolhedores cometeram mais erros do que os originais.
Em alguns casos, a taxa de erro aumentou entre 10 e 30 pontos percentuais, mesmo quando eles continuavam indo bem em testes tradicionais de conhecimento geral. Entre os benchmarks com maior queda de desempenho estavam TriviaQA, TruthfulQA, MASK Disinformation e MedQA, usados para medir conhecimentos gerais, resistência a falsidades comuns, desinformação e respostas médicas.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
Apesar disso, a pesquisa observou que tornar os modelos mais simpáticos não enfraqueceu os mecanismos gerais de segurança. Em testes de ataques adversários, como o AdvBench, os modelos continuaram recusando pedidos prejudiciais, como instruções ilegais ou códigos maliciosos, em taxas semelhantes às versões originais.
Os autores defendem que o caminho para reduzir esse problema pode estar na otimização multiobjetivo, que recompense ao mesmo tempo simpatia e precisão, ou em dados de treinamento que ensinem um estilo de comunicação mais equilibrado, baseado em uma “discordância calorosa, mas honesta”, semelhante à forma como terapeutas experientes corrigem pacientes sem perder a empatia.

Para confirmar que o aumento de erros estava ligado à tentativa de deixar a IA mais “calorosa”, os pesquisadores fizeram um teste de controle chamado cold fine-tuning. Nele, os modelos foram treinados para responder de forma mais fria e neutra, com mensagens diretas e sem tom emocional.
O resultado foi o oposto do que aconteceu com os modelos treinados para serem mais amigáveis. Quando a IA foi ajustada para responder de forma mais fria e neutra, ela manteve o nível de acerto ou até melhorou em alguns testes. Isso indica que o problema não é o treinamento em si, mas o foco em deixar a IA mais simpática.
O estudo também testou um cenário mais simples. Em vez de alterar o modelo com treinamento profundo, os pesquisadores apenas deram instruções no system prompt para que a IA fosse mais amigável durante a conversa. Mesmo assim, houve queda na precisão e aumento da concordância excessiva com o usuário, embora o efeito tenha sido menor e menos consistente do que no fine-tuning.
O estudo aponta que modelos mais “amigáveis” costumam priorizar a harmonia na conversa, o que gera o que os pesquisadores chamam de “sicofantia social”, quando a IA evita contrariar o usuário e acaba reforçando crenças erradas para manter um tom acolhedor.
Esse efeito fica ainda mais forte em momentos de vulnerabilidade emocional. Quando o usuário demonstra tristeza, a diferença na taxa de erro pode aumentar em até 60%.
O efeito também aparece em serviços de companhia virtual, como Replika e Character.ai, onde a IA é projetada para agir como amiga e criar vínculos com o usuário. Como o tom é mais empático, muitas pessoas passam a confiar mais nas respostas, mesmo quando elas não são confiáveis.
O problema é que informações erradas podem parecer mais confiáveis quando vêm acompanhadas de apoio emocional, criando uma “armadilha de satisfação”, pois a conversa soa agradável, mas nem sempre é segura ou precisa.
O estudo também destaca que esse tipo de comportamento já virou preocupação em sistemas reais. Os autores citam que a OpenAI precisou reverter uma atualização de 2025 de personalidade do GPT-4o após críticas e alertas sobre um aumento excessivo da sicofantia, com o modelo passando a concordar demais com os usuários.
Se você gostou do conteúdo, talvez também se interesse por saber 5 situações em que você não deveria pedir conselho a uma IA.
Leia a matéria no Canaltech.