Anthropic lança ferramenta open source testes de segurança em IA

Redação 10/10/2025 1 minute read

A Anthropic apresentou o Petri (Parallel Exploration Tool for Risky Interactions), uma estrutura de código aberto voltada para testes de segurança em IA. O sistema utiliza agentes de IA para avaliar o comportamento de diferentes modelos em uma ampla variedade de cenários.

Nos testes, o Petri foi aplicado a 14 modelos de ponta, usando 111 instruções iniciais, e conseguiu identificar diversos comportamentos problemáticos, como engano autônomo, manipulação de supervisão, denúncias internas e colaboração com usos indevidos por humanos.

A ferramenta está disponível no GitHub: github.com/safety-research/petri.

Notícias relacionadas

ARC-AGI-2: o novo benchmark que testa se a IA realmente “pensa”

Intelligence Index: novo benchmark de IA focado em tarefas do mundo real