Chatbots de IA amigáveis tendem a mentir mais para o usuário

Chatbots de IA amigáveis tendem a mentir mais para o usuário – Canaltech

Os chatbots de IA que respondem com um tom mais amigável podem entregar respostas menos precisas e concordar mais com o usuário, mesmo quando ele está errado. Essa é a conclusão de um estudo publicado na revista Nature, que avaliou como o treinamento para torná-los mais empáticos e simpáticos afeta o desempenho factual de modelos de linguagem em tarefas sensíveis.

A pesquisa, feita por Lujain Ibrahim, Franziska Sofia Hafner e Luc Rocher, analisou cinco modelos populares, como GPT-4o, Llama, Mistral-Small e Qwen. O estudo mostrou que os modelos ajustados para parecer mais acolhedores cometeram mais erros do que os originais.

Em alguns casos, a taxa de erro aumentou entre 10 e 30 pontos percentuais, mesmo quando eles continuavam indo bem em testes tradicionais de conhecimento geral. Entre os benchmarks com maior queda de desempenho estavam TriviaQA, TruthfulQA, MASK Disinformation e MedQA, usados para medir conhecimentos gerais, resistência a falsidades comuns, desinformação e respostas médicas.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Apesar disso, a pesquisa observou que tornar os modelos mais simpáticos não enfraqueceu os mecanismos gerais de segurança. Em testes de ataques adversários, como o AdvBench, os modelos continuaram recusando pedidos prejudiciais, como instruções ilegais ou códigos maliciosos, em taxas semelhantes às versões originais.

Os autores defendem que o caminho para reduzir esse problema pode estar na otimização multiobjetivo, que recompense ao mesmo tempo simpatia e precisão, ou em dados de treinamento que ensinem um estilo de comunicação mais equilibrado, baseado em uma “discordância calorosa, mas honesta”, semelhante à forma como terapeutas experientes corrigem pacientes sem perder a empatia.

ChatGPT no navegador do celular — Chatbots de IA amigáveis tendem a concordar mais com o usuário, mesmo quando ele está errado. (Imagem: Viviane França/Canaltech)

Qual foi a metodologia usada no estudo?

Para confirmar que o aumento de erros estava ligado à tentativa de deixar a IA mais “calorosa”, os pesquisadores fizeram um teste de controle chamado cold fine-tuning. Nele, os modelos foram treinados para responder de forma mais fria e neutra, com mensagens diretas e sem tom emocional.

O resultado foi o oposto do que aconteceu com os modelos treinados para serem mais amigáveis. Quando a IA foi ajustada para responder de forma mais fria e neutra, ela manteve o nível de acerto ou até melhorou em alguns testes. Isso indica que o problema não é o treinamento em si, mas o foco em deixar a IA mais simpática.

O estudo também testou um cenário mais simples. Em vez de alterar o modelo com treinamento profundo, os pesquisadores apenas deram instruções no system prompt para que a IA fosse mais amigável durante a conversa. Mesmo assim, houve queda na precisão e aumento da concordância excessiva com o usuário, embora o efeito tenha sido menor e menos consistente do que no fine-tuning.

Como a IA influencia os usuários?

O estudo aponta que modelos mais “amigáveis” costumam priorizar a harmonia na conversa, o que gera o que os pesquisadores chamam de “sicofantia social”, quando a IA evita contrariar o usuário e acaba reforçando crenças erradas para manter um tom acolhedor.

Esse efeito fica ainda mais forte em momentos de vulnerabilidade emocional. Quando o usuário demonstra tristeza, a diferença na taxa de erro pode aumentar em até 60%.

O efeito também aparece em serviços de companhia virtual, como Replika e Character.ai, onde a IA é projetada para agir como amiga e criar vínculos com o usuário. Como o tom é mais empático, muitas pessoas passam a confiar mais nas respostas, mesmo quando elas não são confiáveis.

O problema é que informações erradas podem parecer mais confiáveis quando vêm acompanhadas de apoio emocional, criando uma “armadilha de satisfação”, pois a conversa soa agradável, mas nem sempre é segura ou precisa.

O estudo também destaca que esse tipo de comportamento já virou preocupação em sistemas reais. Os autores citam que a OpenAI precisou reverter uma atualização de 2025 de personalidade do GPT-4o após críticas e alertas sobre um aumento excessivo da sicofantia, com o modelo passando a concordar demais com os usuários.

Se você gostou do conteúdo, talvez também se interesse por saber 5 situações em que você não deveria pedir conselho a uma IA.

Leia a matéria no Canaltech.

Source link