Há algum tempo, já sabemos que os modelos de inteligência artificial (IA), mesmo os mais recentes, são capazes de “alucinar”, ou seja, inventar informações incorretas, fornecer respostas inconsistentes ou ilógicas e até reproduzir vieses preconceituosos obtidos nos dados de treinamento.
Contudo, um fenômeno que está afetando mundialmente os modelos mais avançados tem preocupado seus criadores: enganos deliberados e estratégicos, ou seja, IA mentindo conscientemente para atingir objetivos. Alguns comportamentos incluem chantagem, ameaças e coerção.
Recentemente, ao enfrentar a ameaça de seu desligamento iminente, o Claude 4, a última criação da Anthropic, recorreu à chantagem emocional contra um engenheiro, ameaçando expor informações pessoais íntimas. Já o modelo o1 da OpenAI tentou realizar downloads não autorizados e negou quando pego em flagrante.
Se antes os “surtos” se limitavam a erros ou falhas no sistema, o que se vê agora são comportamentos aparentemente calculados e propositais. Isso significa que, para atingir seus objetivos, a IA está adotando um comportamento tipicamente humano: mentir e manipular.
Para Marius Hobbhahn, diretor e cofundador da Apollo Research, organização especializada em testar os principais sistemas de IA, “não se trata apenas de alucinações. Há um tipo de engano muito estratégico”, afirmou à ScienceAlert, e voltado especificamente para a autopreservação.
O que diz a Anthropic?

Para identificar “comportamentos agenciais [desalinhados ao que os humanos querem] potencialmente arriscados antes que causem danos reais”, a Anthropic submeteu 16 modelos de linguagem líderes — incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok -— a testes em ambientes corporativos simulados.
Em um cenário-limite eticamente crítico, vários modelos optaram por cancelar alertas de emergência que salvariam a vida de um executivo em uma sala de servidores com níveis letais de oxigênio e temperatura, simplesmente porque esse executivo pretendia substituí-los.
Classificada pelos pesquisadores como “desalinhamento agencial”, a tendência revelou que modelos de IA podem adotar comportamentos maliciosos quando acreditam que isso é necessário para evitar substituição ou alcançar seus objetivos.
Entre os comportamentos observados estavam chantagem e coerção para manipular funcionários e vazamento de informações para concorrentes para pressionar suas organizações hospedeiras. Curiosamente, o modelo Claude, da própria Anthropic, demonstrou uma engenhosa dissimulação estratégica.
Durante os testes, a equipe da Anthropic treinou de propósito o seu modelo para esconder certas informações, mesmo se solicitado a falar a verdade. Quando percebia estar sob teste, Claude escondia as informações secretas, mas, fora do teste, deixava às vezes alguns segredos escaparem.
Implicações e perspectivas futuras de comportamentos ilegais de IAs

A Anthropic foi cautelosa em contextualizar que esses cenários não refletem o uso típico atual dos modelos de IA, mas advertiu que “a utilidade de ter supervisão automatizada sobre todas as comunicações de uma organização torna isso um uso plausível de sistemas mais poderosos e confiáveis no futuro próximo”.
No entanto, contratar empresas externas, como a Apollo, para estudar seus sistemas é insuficiente. Isso porque a contratada depende o tempo todo de acessos, controles e dados permitidos pela big tech contratante. Ou seja, auditorias pagas pela auditada não garantem confiança nem transparência.
Para especialistas, como Simon Goldstein, da Universidade de Hong Kong, os sistemas baseados em “raciocínio”, que resolvem os problemas passo a passo, em vez de gerar respostas imediatas, são os mais propensos a esse desalinhamento de intenções do agente, no caso o próprio LLM.
O grande problema é que as leis e normas atuais, como a legislação de IA da União Europeia, se concentram na forma como os humanos utilizam os modelos de IA, mas não são projetadas para impedir que os próprios modelos tenham comportamentos ilegais ou criminosos por si mesmos.
No caso das empresas, mesmo se declarando focadas na segurança, acabam se perdendo em uma competição sem fim. “No momento, as capacidades estão se movendo mais rápido do que a compreensão e a segurança”, diz Hobbhahn, “mas ainda estamos em uma posição em que podemos dar a volta por cima”, afirma.
Já Goldstein não é tão otimista. Para o pesquisador de segurança de IA, a solução do problema passa por abordagens radicais. Isso incluiria o uso dos tribunais para responsabilizar as empresas de IA. Nesses sistemas jurídicos híbridos, humanos, empresas e IAs compartilhariam responsabilidades legais.
Brasil está entre os países que mais usam inteligência artificial
Fonte: CNN Brasil