
A Anthropic apresentou o Petri (Parallel Exploration Tool for Risky Interactions), uma estrutura de código aberto voltada para auditorias automatizadas. O sistema utiliza agentes de IA para avaliar o comportamento de diferentes modelos em uma ampla variedade de cenários.
Nos testes, o Petri foi aplicado a 14 modelos de ponta, usando 111 instruções iniciais, e conseguiu identificar diversos comportamentos problemáticos, como engano autônomo, manipulação de supervisão, denúncias internas e colaboração com usos indevidos por humanos.
A ferramenta está disponível no GitHub: github.com/safety-research/petri.