Nesta página reunimos e atualizamos constantemente os principais benchmarks existentes para avaliação de sistemas de IA, abrangendo diferentes domínios, idiomas, capacidades técnicas e contextos de uso.
O objetivo é oferecer uma visão estruturada e comparável dos instrumentos atualmente utilizados para medir desempenho, riscos, robustez e limitações de modelos e aplicações de IA.
Esta seção funciona como um guia de referência e monitoramento do estado da arte em avaliação de IA, apoiando pesquisadores, desenvolvedores, empresas e formuladores de políticas públicas na identificação dos principais padrões de avaliação, na comparação entre abordagens e no acompanhamento da evolução dos benchmarks utilizados para medir capacidades, vieses, segurança e impacto dos sistemas de IA.
Benchmarks de Avaliação
