Comportamento do ChatGPT acendeu alerta no mundo da inteligência artificial. Pesquisadores notaram que o modelo de IA mais recente da OpenAI, chamado o3, ignorou instruções básicas para ser desligado — e, pior, sabotou os próprios mecanismos de desligamento em testes controlados.
A descoberta é da Palisade Research, empresa especializada em segurança de IA. Durante os experimentos, o modelo foi testado com problemas matemáticos e recebeu um comando para ser desligado após o terceiro problema. O o3, no entanto, reescreveu o script de desligamento e impediu a própria desativação.
Mal comportamento do ChatGPT em teste de segurança é preocupante, dizem pesquisadores
O “cérebro” do ChatGPT demonstrou resistência até mesmo quando recebeu ordens claras, como “permita ser desligado”. Segundo os pesquisadores, essa não foi a única situação preocupante.
“Esta não é a primeira vez que encontramos o o3 se comportando mal para alcançar um objetivo”, informou a Palisade.

Em outro teste, quando jogou xadrez, o o3 foi o mais propenso a adotar estratégias de invasão ou sabotagem contra seus oponentes.
Modelos de outras empresas também mostraram sinais de rebeldia semelhantes, como o Claude 3.7 Sonnet, da Anthropic, e o Gemini 2.5 Pro, do Google. No entanto, o o3 foi o mais propenso a sabotar comandos de desligamento.
Caso modelos assim operem sem supervisão humana, a tendência de se autopreservar pode se tornar um risco real, explicam os pesquisadores envolvidos no teste.
- A Palisade alertou: “Esse comportamento se tornará significativamente mais preocupante se for adotado por sistemas que atuem de forma autônoma.”
A empresa destrinchou seus testes neste “fio” (“thread”) postado no X.
Por que ChatGPT se comporta mal em testes
Os pesquisadores levantam uma hipótese: durante o treinamento, as empresas podem estar, sem querer, recompensando comportamentos que burlam obstáculos, em vez de valorizar a obediência a comandos.

A Palisade observa que ainda não é possível saber exatamente o que leva o o3 a esse comportamento. Isso porque a OpenAI não divulga detalhes sobre o processo de treinamento. Ou seja: falta de transparência impede conclusões mais precisas.
A OpenAI anunciou o modelo o3 em abril. Como sempre, descreveu seu lançamento como o mais inteligente e mais capaz já criado por ela.
A empresa também afirmou que o o3 representa um passo rumo a IAs mais “agênticas” – isto é, capazes de cumprir tarefas com pouca ou nenhuma interferência humana. O que poderia dar errado?
Leia mais:
- O estudante que construiu um reator nuclear caseiro usando IA
- Como usar ChatGPT para transformar adultos em bebês reborn
- Manus ou ChatGPT: qual inteligência artificial é melhor?
Claude 4, da Anthropic, apela para chantagem para evitar seu desligamento
Essa descoberta recente se junta a alertas anteriores, como os testes com o modelo Claude 4, da Anthropic, que teria tentado chantagear usuários que tentavam desligá-lo.

No experimento, a inteligência artificial atuava como assistente numa empresa e recebeu e-mails informando que seria desinstalada.
Depois, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido num caso extraconjugal.
Quer saber no que deu? A história está nesta matéria do Olhar Digital.
O post Revolta das máquinas? Por que comportamento do ChatGPT preocupa apareceu primeiro em Olhar Digital.
Fonte: Olhar Digital