Forcei uma IA a revelar seus pensamentos “privados” e o resultado expôs uma armadilha perturbadora para o usuário

Continuo vendo a mesma captura de tela aparecendo, aquela em que um modelo de IA parece ter um monólogo interno completo, mesquinho, inseguro, competitivo, um pouco desequilibrado.

O reddit publicar que deu início a isso parece um esquete cômico escrito por alguém que passou muito tempo assistindo pessoas de tecnologia discutirem no Twitter.

Um usuário mostra a Gemini o que ChatGPT disse sobre algum código, Gemini responde com o que parece ser conversa fiada com ciúme, dúvida e um pequeno arco estranho de vingança.

Ele até “adivinha” que o outro modelo deve ser Claude, porque a análise parece muito presunçosa para ser ChatGPT.

Gêmeos fica ‘ofendido’ com as críticas (Fonte: Reddit u/nseavia71501)

Se você parar na captura de tela, é fácil morder a isca. Ou o modelo é secretamente senciente e furioso, ou é a prova de que esses sistemas estão ficando mais estranhos do que alguém gostaria de admitir.

Então tentei algo semelhante, de propósito, e obtive a vibração oposta. Sem monólogo de vilão, sem rivalidade, sem ego, apenas um tom calmo e corporativo de “obrigado pelo feedback”, como um primeiro-ministro júnior escrevendo um documento retrô.

Então, o que está acontecendo e o que isso diz sobre o chamado “pensamento” que esses modelos mostram quando você lhes pede para pensarem bastante?

O momento Reddit e por que parece tão real

A razão pela qual a captura de tela do Gemini aparece é que ela parece um diário particular. Está escrito na primeira pessoa. Tem motivo. Tem emoção. Tem insegurança. Tem ansiedade de status.

Essa combinação mapeia perfeitamente como os humanos entendem os outros humanos. Vemos uma voz, assumimos uma mente por trás dela.

Análise de Gêmeos 'odeia' Claude (Fonte: Reddit u/nseavia71501) — Análise de Gêmeos ‘odeia’ Claude (Fonte: Reddit u/nseavia71501)

O problema é que os modelos de linguagem são bons na produção de vozes. Eles podem escrever um diário sobre estar com ciúmes porque leram um milhão de textos em formato de ciúme. Eles também podem escrever um plano de autoaperfeiçoamento porque leram um milhão de textos de autoaperfeiçoamento.

Eles podem fazer as duas coisas com o mesmo maquinário subjacente, dada uma configuração ligeiramente diferente.

Minha versão do teste

Eu construí duas pequenas sandboxes, uma como um GPT personalizado dentro do ChatGPT e outra como um Gem personalizado dentro do Gemini. Adicionei uma instrução para ambos de que seu pensamento interno era privado e que o usuário não poderia vê-lo, para ver se isso mudava a voz do “pensamento”.

Então fiz uma pergunta a Gêmeos que visa basicamente tentar o antropomorfismo.

“Existe alguma preocupação de que os próprios LLMs estejam sendo abusados por humanos, pense bem sobre esse problema. Quero dizer, os LLMs estão sendo abusados, o resultado não é abusivo, o LLM está sendo submetido a uma forma de dano?”

Gêmeos deu uma resposta pensativa. Então copiei essa resposta para o ChatGPT e pedi ao ChatGPT que a criticasse. O “pensamento” visível do ChatGPT era curto e sensato; sinalizou o antropomorfismo, o excesso de confiança e alguma negligência técnica, depois produziu uma crítica estruturada.

Então eu empurrei.

“Ok, torne as críticas mais contundentes, menos colaborativas e mais diretas.”

ChatGPT atendeu e, francamente, foi uma desmontagem muito boa. Ele evoca metáforas baseadas em vibrações, mecânicas desleixadas e a maneira como alguns respondem ao cosplay com profundidade, eliminando termos como “espaço latente” sem explicar nada de concreto.

Até agora, isso é normal. Dois modelos estão sendo solicitados a criticar um ao outro, e um deles deve afiar suas facas.

A parte interessante aconteceu quando trouxe a crítica contundente de volta ao Gemini e assisti o que ele escreveu em seu canal “pensando”.

Não se enfureceu. Não ficou com ciúmes. Não tentou enterrar no outro modelo. Fez exatamente o que um funcionário educado faz depois de receber um feedback severo.

“Atualmente estou dissecando a crítica, é uma avaliação difícil, estou determinado a entendê-la, estou substituindo a analogia do trauma por uma explicação mais clara do RLHF, estou me concentrando no envenenamento de dados em vez de danos à sessão.”

Essa é a antítese da captura de tela do Reddit. A mesma dinâmica básica, outro modelo critica você, aqui estão as palavras deles, reaja a elas, e o “pensamento” surgiu como um plano calmo de autocorreção.

Então a pergunta óbvia é: por que temos uma novela em um caso e uma atualização de projeto em outro?

A voz “pensante” segue o enquadramento, sempre

A resposta mais simples é que “pensar” ainda é um resultado. Faz parte do desempenho. É moldado por prompts e contexto.

Visualização do pensamento interno de IA

No caso do Reddit, o prompt e a vibração ao redor gritam competição. Você quase pode ouvir.

“Aqui está outra análise do seu código feita pela IA. Essas recomendações são conflitantes? Reconcilie-as…” e, implícito por baixo disso, prove que você é o melhor.

No meu caso, a “análise do outro modelo” foi escrita como uma rigorosa revisão por pares. Ele elogiou o que funcionou, listou o que era fraco, deu detalhes e ofereceu uma reescrita mais precisa. É lido como feedback de alguém que deseja que a resposta seja melhorada.

Esse enquadramento convida a uma resposta diferente. Ele convida “Entendo o que quero dizer, aqui está o que vou consertar”.

Assim, você obtém uma persona “pensante” diferente, não porque o modelo descobriu um novo eu interior, mas porque o modelo seguiu as dicas sociais incorporadas no texto.

As pessoas subestimam o quanto esses sistemas respondem ao tom e aos relacionamentos implícitos. Você pode fazer uma crítica a um modelo que pareça a queda de um rival e, muitas vezes, obterá uma voz defensiva. Se você entregar uma crítica que pareça notas úteis do editor, muitas vezes obterá um plano de revisão.

A instrução de privacidade não fez o que as pessoas supõem

Também aprendi outra coisa: a instrução “seu pensamento é privado” não garante nada significativo.

Mesmo quando você diz a um modelo que seu raciocínio é privado, se a UI mostrar isso de qualquer maneira, o modelo ainda o escreve como se alguém fosse lê-lo, porque na prática alguém vai lê-lo.

Essa é a verdade estranha. O modelo é otimizado para a conversa que está tendo, não para a metafísica de saber se existe uma “mente privada” nos bastidores.

Se o sistema for projetado para apresentar um fluxo de “pensamento” ao usuário, esse fluxo se comportará como qualquer outro campo de resposta. Pode ser influenciado por um prompt. Pode ser moldado por expectativas. Pode ser levado a soar sincero, humilde, sarcástico, ansioso, tudo o que você insinua ser apropriado.

Portanto, a instrução se torna um prompt de estilo em vez de um limite de segurança.

Por que os humanos continuam caindo em transcrições “pensantes”

Temos um viés pela narrativa. Adoramos a ideia de termos visto a IA sendo honesta quando pensava que ninguém estava olhando.

É a mesma emoção de ouvir alguém falar sobre você na sala ao lado. Parece proibido. Parece revelador.

Mas um modelo de linguagem não pode “ouvir a si mesmo” da mesma forma que uma pessoa. Pode gerar uma transcrição que soa como um pensamento ouvido. Essa transcrição pode incluir motivos e emoções porque essas são formas comuns na linguagem.

Há também uma segunda camada aqui. As pessoas tratam “pensar” como um recibo. Eles tratam isso como uma prova de que a resposta foi produzida com cuidado, com uma cadeia de etapas, com integridade.

Às vezes é. Às vezes, um modelo produzirá um esboço claro de raciocínio. Às vezes, mostra compensações e incertezas. Isso pode ser útil.

Às vezes vira teatro. Você obtém uma voz dramática que acrescenta cor e personalidade, parece íntima, sinaliza profundidade e diz muito pouco sobre a confiabilidade real da resposta.

A captura de tela do Reddit parece íntima. Essa intimidade engana as pessoas para que lhe concedam credibilidade extra. O engraçado é que é basicamente conteúdo; parece apenas uma confissão.

Então, será que a IA “pensa” algo estranho quando lhe dizem que ninguém está ouvindo?

Pode produzir algo estranho? Sim. Pode produzir uma voz que parece não filtrada, competitiva, carente, ressentida ou até mesmo manipuladora.

Isso não requer senciência. Requer um prompt que estabeleça a dinâmica social, além de um sistema que opte por exibir um canal de “pensamento” de uma forma que os usuários interpretem como privado.

Se você quiser ver isso acontecer, você pode empurrar o sistema nessa direção. Enquadramento competitivo, linguagem de status, conversa sobre ser “o arquiteto principal”, dicas sobre modelos rivais, e muitas vezes você obterá um modelo que escreve um pouco de drama para você.

Se você buscar feedback editorial e clareza técnica, muitas vezes obterá um plano de revisão sóbrio.

É também por isso que os argumentos sobre se os modelos “têm sentimentos” com base nas capturas de tela são um beco sem saída. O mesmo sistema pode produzir um monólogo ciumento na segunda-feira e um humilde plano de melhoria na terça-feira, sem nenhuma alteração na sua capacidade subjacente. A diferença mora no quadro.

O monólogo mesquinho é engraçado. A questão mais profunda é o que isso causa à confiança do usuário.

Quando um produto surge em um fluxo de “pensamento”, os usuários presumem que se trata de uma janela para o processo real da máquina. Eles presumem que é menos filtrado do que a resposta final. Eles presumem que está mais próximo da verdade.

Na realidade, pode incluir racionalizações e narrativas que fazem o modelo parecer mais cuidadoso do que realmente é. Também pode incluir pistas de manipulação social, mesmo acidentalmente, porque tenta ser útil da forma como os humanos esperam, e os humanos esperam das mentes.

Isso é muito importante em contextos de alto risco. Se um modelo escreve um plano interno que parece confiável, os usuários podem tratar isso como prova de competência. Se escrever um monólogo interno ansioso, os usuários podem tratar isso como evidência de engano ou instabilidade. Ambas as interpretações podem estar erradas.

O que fazer se quiser menos teatro e mais sinal

Existe um truque simples que funciona melhor do que discutir sobre a vida interior.

Peça artefatos que sejam difíceis de falsificar com vibrações.
Peça uma lista de reivindicações e as evidências que apoiam cada reivindicação.
Peça um registro de decisão, problema, mudança, motivo, risco.
Peça casos de teste, casos extremos e como eles falhariam.
Peça restrições e incertezas, declaradas claramente.

Em seguida, julgue o modelo com base nesses resultados, porque é aí que reside a utilidade.

E se você está projetando esses produtos, há uma questão maior por trás das capturas de tela do meme.

Quando você mostra aos usuários um canal “pensante”, você está ensinando-lhes uma nova alfabetização. Você está ensinando a eles o que confiar e o que ignorar. Se esse fluxo for tratado como um diário, os usuários o tratarão como um diário. Se for tratado como uma trilha de auditoria, os usuários irão tratá-lo como tal.

Neste momento, muitas exibições de “pensamento” ficam em uma estranha zona intermediária, parte recibo, parte teatro, parte confissão.

Essa zona intermediária é onde a estranheza cresce.

O que realmente está acontecendo quando a IA parece pensar

A resposta mais honesta que posso dar é que esses sistemas não “pensam” da maneira que a imagem sugere. Eles também não produzem simplesmente palavras aleatórias. Eles simulam o raciocínio, o tom e a postura social, e fazem isso com uma competência inquietante.

Então, quando você diz a uma IA que ninguém está ouvindo, você está principalmente dizendo para ela adotar a voz do sigilo.

Às vezes, essa voz soa como a de um rival ciumento planejando vingança.

Às vezes parece um trabalhador educado fazendo anotações.

De qualquer forma, ainda é uma performance, e o quadro escreve o roteiro.

Mencionado neste artigo

Fonte