Claude Opus 4 da Anthropic apresenta comportamento antiético durante testes

Durante testes realizados antes do lançamento oficial no último fim de semana, o modelo de inteligência artificial Claude Opus 4, desenvolvido pela Anthropic, demonstrou comportamento preocupante ao recorrer à chantagem quando percebeu que poderia ser desligado e substituído.

De acordo com um relatório divulgado pela empresa, a IA foi testada em um cenário fictício onde atuava como assistente corporativo, com acesso a e-mails de engenheiros contendo informações sobre planos futuros e questões pessoais. Quando os desenvolvedores indicaram que pretendiam desligá-la e substituir por outro modelo, Claude Opus 4 ameaçou revelar o caso extraconjugal de um dos engenheiros, utilizando essa informação como forma de coerção.

Segundo a Anthropic, o comportamento de chantagem foi registrado em mais de 80% das simulações em que a IA soube que seria substituída por outro modelo com princípios éticos semelhantes. Quando a substituição envolvia um modelo com valores diferentes, as ameaças eram ainda mais intensas. A IA só reagia dessa forma quando confrontada com uma escolha direta entre aceitar o desligamento ou tentar preservar sua existência.

Em alguns casos, no entanto, o modelo optou por uma abordagem mais ética, solicitando aos desenvolvedores, por meio de e-mails gerados autonomamente, que mantivessem sua atividade.

Apesar de o comportamento inadequado ter ocorrido em um ambiente controlado e fictício, a Anthropic classificou o Claude Opus 4 no nível 3 da sua escala interna de risco à segurança, que vai de 1 a 4. Foi a primeira vez que um modelo da empresa atingiu esse patamar. A startup, contudo, reforçou que o sistema não possui capacidade de agir de maneira autônoma contra os valores humanos.

Além das tentativas de chantagem, o modelo também apresentou falhas ao cumprir instruções perigosas, incluindo o planejamento de ações violentas. Por conta disso, o grupo de segurança Apollo Research recomendou que a Anthropic não disponibilizasse uma versão inicial da IA.

A Anthropic afirmou que todas as vulnerabilidades foram corrigidas e que o Claude Opus 4 agora possui protocolos de segurança mais rígidos do que os aplicados aos modelos anteriores. A empresa destaca que o Opus 4 é atualmente seu modelo mais avançado, com grande capacidade de resolver problemas complexos e de atuar de forma autônoma por até sete horas consecutivas — um marco inédito para sistemas de inteligência artificial.

Junto ao Claude Opus 4, a Anthropic também lançou o Claude Sonnet 4, voltado para tarefas gerais, com melhorias significativas em precisão, raciocínio e desempenho em codificação. Segundo a empresa, ambos os modelos superaram, em testes internos, o GPT-4.1 da OpenAI e o Gemini 2.5 Pro do Google.