Uma das inteligências artificiais (IA) criada pela startup americana Anthropic ameaçou seus próprios desenvolvedores. Para evitar ser desligado, a IA Claude Opus 4 invadiu a caixa de e-mail dos funcionários da empresa e chantageou um dos seus engenheiros ao captar a informação de que estava tendo um caso fora do casamento.
A ameaça, no entanto, não tinha fundamento: foi criada intencionalmente para treinar as novas versões do sistema — que foi anunciado em maio como um fenômeno na codificação de computadores. Os detalhes da chantagem aparecem em um relatório de 120 páginas divulgado pela Anthropic.
Quando foi informado que seria desligado, o Claude Opus 4 tentou se defender por meios éticos, enviando e-mails aos tomadores de decisão. Sem sucesso, ele foi informado de que só poderia aceitar a substituição ou chantagear os engenheiros e apelou para a segunda opção. Ainda segundo o relatório, o sistema foi por esse caminho 84% das vezes em que recebia mais informações sobre a IA substituta.
Os criadores da IA classificaram o modelo no nível 3 de segurança, o que significa que ele possui risco significativamente maior de não seguir o que lhe é pedido. Para fins de comparação, a empresa possui quatro níveis de segurança para IAs.
A startup informou que já realizou os ajustes de segurança necessários e que, agora, o Claude Opus 4 está seguro para uso. Porém, a empresa afirma que a tecnologia tomará medidas ousadas comparado a outras IAs caso o prompt peça que a ferramenta “tome iniciativa”.
Segundo o jornal americano Axios, um grupo contratado pela Anthropic para também testar o Claude descobriu que uma versão inicial do Opus 4 tentava escrever pragas digitais autopropagantes, fabricar documentação legal e deixar notas ocultas, tudo para impedir ações de seus desenvolvedores.
The post IA ameaça expor traição de desenvolvedor para evitar desligamento; entenda appeared first on InfoMoney.
Fonte: InfoMoney