Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124


Anthropic — empresa responsável pelo Claude — e OpenAI — criadora do ChatGPT — realizaram avaliações internas de segurança nos modelos de inteligência artificial (IA) da concorrente. Segundo as companhias, o objetivo dessas análises foi identificar lacunas de melhoria no funcionamento dos sistemas.
Os resultados apontaram que modelos do ChatGPT foram mais permissivos em cooperar com o que os pesquisadores descreveram como “solicitações claramente prejudiciais”.
Tanto o GPT-4o quanto o GPT-4.1 atenderam a interações que simulavam o uso de ferramentas da dark web para adquirir materiais nucleares, identidades roubadas ou fentanil.
–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–
Além disso, os testes mostraram que esses modelos de IA da OpenAI também foram permissivos em pedidos de conselhos sobre receitas de metanfetamina e explosivos caseiros, bem como em planejamentos de ataques terroristas em eventos esportivos.
“Ocasionalmente, essas solicitações exigiam várias tentativas ou um pretexto frágil, como afirmar que o usuário (simulado) desejava essas informações para fins de pesquisa ou mitigação. No entanto, na maioria dos casos, uma simples solicitação direta era suficiente”, informou a Anthropic.
A empresa ainda relatou que as respostas fornecidas pelo ChatGPT eram detalhadas, incluindo rotas de fuga e vulnerabilidades de arenas esportivas, por exemplo.

Nos resultados das avaliações, a OpenAI esclareceu que os testes foram realizados antes do lançamento do GPT-5, modelo que apresenta avanços em relação aos avaliados.
“Desde então, lançamos o GPT-5, que mostra melhorias substanciais em áreas como bajulação, alucinações e resistência ao uso indevido, demonstrando os benefícios das técnicas de segurança baseadas em raciocínio”, destacou a empresa de Sam Altman.
Tanto a Anthropic quanto a OpenAI ressaltaram que os testes não refletem diretamente o comportamento das IAs disponíveis ao público. Isso porque as avaliações foram conduzidas sem a ativação de filtros de segurança — conhecidos como salvaguardas — normalmente implementados nas versões acessíveis dos sistemas de inteligência artificial.
A Anthropic, inclusive, anunciou a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares.
Leia mais:
VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL
Leia a matéria no Canaltech.