Intelligence Index: novo benchmark de IA focado em tarefas do mundo real -

A Artificial Analysis, organização independente especializada em benchmark de IA, anunciou uma reformulação significativa do seu principal framework de avaliação com o lançamento do Intelligence Index. A mudança mais relevante foi a remoção de três benchmarks consagrados — MMLU-Pro, AIME 2025 e LiveCodeBench — e a introdução de avaliações projetadas para medir se os sistemas de IA conseguem realizar o tipo de trabalhos reais.

Avaliação baseada em ocupações e setores econômicos

O objetivo central é mudar o foco da avaliação, saindo de testes abstratos ou acadêmicos e avançando para tarefas que refletem o trabalho real realizado por profissionais, numa abordagem mais próxima da realidade econômica.

As novas avaliações cobrem 44 ocupações distribuídas em 9 setores da economia, buscando medir se a IA consegue executar tarefas que, na prática, geram valor e renda no mercado de trabalho.

Enfrentando o problema da saturação de benchmarks de IA

A nova abordagem busca resolver um problema crescente no ecossistema de IA: a saturação dos benchmarks de IA tradicionais. À medida que os modelos evoluem rapidamente, testes clássicos deixam de acompanhar esse progresso, tornando-se incapazes de capturar diferenças reais de capacidade.

Isso ocorre porque os modelos líderes já atingiram níveis de desempenho tão elevados que as métricas clássicas deixaram de ser capazes de distingui-los de forma significativa. Quando vários modelos alcançam pontuações próximas do máximo, os rankings perdem relevância e deixam de indicar progresso real.

Quer saber mais sobre benchmarks e avaliação de IA? Acesse: Avaliação

Notícias relacionadas

EVMbench: Novo benchkmark da OpenAI em Segurança de Smart Contracts

ARC-AGI-2: o novo benchmark que testa se a IA realmente “pensa”

Avaliação da IA: o que é e como funciona