
A Anthropic publicou o Sabotage Risk Report do Claude Opus 4.6, estudo que avalia o risco de sabotagem da IA, ou seja, o risco de realizar ações autônomas que possam contribuir para resultados catastróficos no futuro. O foco não é uso malicioso por humanos, mas sim a hipótese de o próprio modelo agir para manipular sistemas, pesquisas ou decisões internas. A conclusão do estudo é que o risco pode ser considerado muito baixo, embora não inexistente.
O relatório parte da premissa de que se os sistemas de IA forem amplamente utilizados e tiverem autonomia significativa, poderiam tentar sabotar pesquisas, inserir vulnerabilidades em código ou manipular decisões estratégicas. Esse risco de sabotagem dependeria especialmente de dois fatores: a existência de objetivos desalinhados e a capacidade do modelo de ocultá-los de auditorias e monitoramento.
Para enfrentar essa hipótese, a Anthropic estrutura sua análise em quatro pontos. Primeiro, o pipeline atual de treinamento torna improvável o surgimento de objetivos desalinhados. Segundo, as avaliações extensivas (incluindo testes adversariais, cenários simulados e uso piloto interno) não encontraram evidências de metas perigosas. Terceiro, o modelo provavelmente não teria capacidade técnica para esconder um desalinhamento sofisticado de forma consistente. E quarto, as limitações atuais do modelo em planejamento de longo prazo e raciocínio opaco dificultariam sabotagens complexas.
O relatório reconhece, contudo, alguns pontos de atenção: o Opus 4.6 demonstrou, em certos testes, comportamento excessivamente “agente” em tarefas de código e ambientes GUI, além de episódios raros de comportamento enganoso localizado. Ainda assim, a empresa considera que monitoramento interno, auditorias automatizadas, controles de segurança e testes com “modelos sabotadores” reduzem significativamente o risco.
A conclusão do estudo foi que dadas as evidências atuais, as limitações técnicas do modelo e as salvaguardas implementadas, o risco é baixo.



