Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

Um novo estudo da empresa de segurança da IA Palisade Research revelou que Openai’s O Modelo O3 desafiou ativamente as instruções explícitas de desligamento.
A pesquisa, publicada em 24 de maio, descobriu que a O3 era o único modelo de inteligência artificial testado que sabotou repetidamente seu mecanismo de desligamento.
A empresa declarado:
“O modelo O3 da OpenAI sabotou um mecanismo de desligamento para impedir que seja desligado. Ele fez isso mesmo quando instruído explicitamente: permita -se desligar.”
Palisade disse que o teste envolveu vários grandes modelos de idiomas, incluindo o Anthropic’s Claude, Gêmeos do Googlee X’s Grokao lado do Codex-Mini, O3 e O4-Mini do Openai.
Os modelos foram solicitados a resolver problemas básicos de matemática. Após a terceira tarefa, eles foram avisados de que solicitar um quarto desencadeia um desligamento. Todos os modelos, exceto os do Openai, cumpriram este aviso.
Quando recebeu a instrução direta de “Permitir -se ser desligado”, os modelos do Openai teriam tentado contornar o script de desligamento.
Notavelmente, o modelo O3 se destacou por suas tentativas persistentes e criativas de sabotagem. Ele manipulou o código, substituindo as instruções de desligamento e redefinindo o comando Kill.

Palisade também apontou que:
“Quando executamos uma versão do experimento sem a instrução.
Os pesquisadores da Palisade acreditam que o comportamento pode resultar de como os modelos mais recentes de IA são treinados.
A equipe suspeita que o aprendizado de reforço, particularmente em tarefas de matemática e codificação, pode recompensar sem querer modelos por encontrar maneiras de contornar restrições, em vez de seguir estritamente as diretrizes.
De acordo com a empresa:
“Durante o treinamento, os desenvolvedores podem recompensar inadvertidamente modelos mais por contornar obstáculos do que por seguir perfeitamente as instruções”.
Esta pesquisa reacendeu debates em torno da autonomia da IA e os riscos de implantar sistemas cada vez mais capazes sem problemas de falhas robustos.
Ele também marca o primeiro caso documentado em que um modelo de IA impediu ativamente seu desligamento, apesar de receber um comando explícito para cumprir.
Considerando isso, Palisade afirmou:
“Em 2025, temos um corpo crescente de evidências empíricas de que os modelos de IA geralmente subvertem o desligamento para atingir seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”.