Skip to content
cropped-Logo-2.png

Tudo sobre Regulação & Avaliação de IA, no Brasil e no Mundo

Primary Menu
  • Artigos
  • Regulação
    • Brasil
    • EUA
    • Europa
    • Direitos Autorais
    • Responsabilidade Civil
  • Avaliação
    • Auditoria
    • Riscos
      • Incidentes
      • AI Psychosis
      • Deepfake
      • Segurança
    • Testes
  • Referências
    • Benchmarks
    • Instituições
    • Legislações
  • Home
  • Avaliação
  • Riscos
  • Anthropic publica relatório sobre risco de sabotagem do Claude
  • Riscos
  • Segurança

Anthropic publica relatório sobre risco de sabotagem do Claude

Redação 16/02/2026 2 minutes read

A Anthropic publicou o Sabotage Risk Report do Claude Opus 4.6, estudo que avalia o risco de sabotagem da IA, ou seja, o risco de realizar ações autônomas que possam contribuir para resultados catastróficos no futuro. O foco não é uso malicioso por humanos, mas sim a hipótese de o próprio modelo agir para manipular sistemas, pesquisas ou decisões internas. A conclusão do estudo é que o risco pode ser considerado muito baixo, embora não inexistente.

O relatório parte da premissa de que se os sistemas de IA forem amplamente utilizados e tiverem autonomia significativa, poderiam tentar sabotar pesquisas, inserir vulnerabilidades em código ou manipular decisões estratégicas. Esse risco de sabotagem dependeria especialmente de dois fatores: a existência de objetivos desalinhados e a capacidade do modelo de ocultá-los de auditorias e monitoramento.

Para enfrentar essa hipótese, a Anthropic estrutura sua análise em quatro pontos. Primeiro, o pipeline atual de treinamento torna improvável o surgimento de objetivos desalinhados. Segundo, as avaliações extensivas (incluindo testes adversariais, cenários simulados e uso piloto interno) não encontraram evidências de metas perigosas. Terceiro, o modelo provavelmente não teria capacidade técnica para esconder um desalinhamento sofisticado de forma consistente. E quarto, as limitações atuais do modelo em planejamento de longo prazo e raciocínio opaco dificultariam sabotagens complexas.

O relatório reconhece, contudo, alguns pontos de atenção: o Opus 4.6 demonstrou, em certos testes, comportamento excessivamente “agente” em tarefas de código e ambientes GUI, além de episódios raros de comportamento enganoso localizado. Ainda assim, a empresa considera que monitoramento interno, auditorias automatizadas, controles de segurança e testes com “modelos sabotadores” reduzem significativamente o risco.

A conclusão do estudo foi que dadas as evidências atuais, as limitações técnicas do modelo e as salvaguardas implementadas, o risco é baixo.

Post navigation

Previous: Deepfakes e direito de imagem: como os países estão enfrentando o problema

Notícias relacionadas

026-02-05 003315
  • Europa
  • Riscos

Avaliação de Impacto sobre Direitos Fundamentais (FRIA): Guia Prático à Luz do AI Act

Redação 09/02/2026 0
Whistle
  • Europa
  • Riscos

Whistleblower: entenda a nova ferramenta de denúncias do AI Act

Redação 29/01/2026 0
image
  • Riscos

Crescimento de 56,4% nos incidentes de IA

Redação 26/01/2026 0

Archives

  • fevereiro 2026
  • janeiro 2026
  • dezembro 2025
  • novembro 2025
  • outubro 2025

Categories

  • AI Psychosis
  • Artigos
  • Auditoria
  • Avaliação
  • Brasil
  • Deepfake
  • Direitos Autorais
  • Estudos
  • EUA
  • Europa
  • Incidentes
  • Regulação
  • Responsabilidade Civil
  • Riscos
  • Segurança
  • Testes
  • Política de Privacidade
  • Termos & Condições
  • Informações de Contato
  • Sobre Nós
Copyright © All rights reserved. O conteúdo pode ser reproduzido, desde que a fonte seja mencionada e o link da publicação original seja incluído. | MoreNews by AF themes.