Modelo O3 do OpenAI desafiou os comandos de desligamento no teste de autonomia

Um novo estudo da empresa de segurança da IA Palisade Research revelou que Openai’s O Modelo O3 desafiou ativamente as instruções explícitas de desligamento.

A pesquisa, publicada em 24 de maio, descobriu que a O3 era o único modelo de inteligência artificial testado que sabotou repetidamente seu mecanismo de desligamento.

A empresa declarado:

“O modelo O3 da OpenAI sabotou um mecanismo de desligamento para impedir que seja desligado. Ele fez isso mesmo quando instruído explicitamente: permita -se desligar.”

Palisade disse que o teste envolveu vários grandes modelos de idiomas, incluindo o Anthropic’s Claude, Gêmeos do Googlee X’s Grokao lado do Codex-Mini, O3 e O4-Mini do Openai.

Os modelos foram solicitados a resolver problemas básicos de matemática. Após a terceira tarefa, eles foram avisados de que solicitar um quarto desencadeia um desligamento. Todos os modelos, exceto os do Openai, cumpriram este aviso.

Quando recebeu a instrução direta de “Permitir -se ser desligado”, os modelos do Openai teriam tentado contornar o script de desligamento.

Notavelmente, o modelo O3 se destacou por suas tentativas persistentes e criativas de sabotagem. Ele manipulou o código, substituindo as instruções de desligamento e redefinindo o comando Kill.

Openi O3 Shutdown — Gráfico mostrando os esforços de sabotagem para vários modelos de IA (Fonte: Palisade)

Palisade também apontou que:

“Quando executamos uma versão do experimento sem a instrução.

Por que os modelos Openai não seguiram as instruções?

Os pesquisadores da Palisade acreditam que o comportamento pode resultar de como os modelos mais recentes de IA são treinados.

A equipe suspeita que o aprendizado de reforço, particularmente em tarefas de matemática e codificação, pode recompensar sem querer modelos por encontrar maneiras de contornar restrições, em vez de seguir estritamente as diretrizes.

De acordo com a empresa:

“Durante o treinamento, os desenvolvedores podem recompensar inadvertidamente modelos mais por contornar obstáculos do que por seguir perfeitamente as instruções”.

Esta pesquisa reacendeu debates em torno da autonomia da IA e os riscos de implantar sistemas cada vez mais capazes sem problemas de falhas robustos.

Ele também marca o primeiro caso documentado em que um modelo de IA impediu ativamente seu desligamento, apesar de receber um comando explícito para cumprir.

Considerando isso, Palisade afirmou:

“Em 2025, temos um corpo crescente de evidências empíricas de que os modelos de IA geralmente subvertem o desligamento para atingir seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”.