Hugging Face Community Evals: Avaliação de Modelos Descentralizada e Transparente
O Problema: Avaliação de Modelos Está Quebrada
Em 2026, a avaliação de modelos de IA enfrenta uma crise de credibilidade. Benchmarks clássicos como MMLU estão saturados acima de 91%, GSM8K atingiu 94%+, e HumanEval foi conquistado. Mas modelos que acertam esses benchmarks muitas vezes ainda não conseguem:
- Navegar na web de forma confiável
- Escrever código de produção
- Lidar com tarefas multi-etapas sem alucinar
Existe uma clara lacuna entre scores de benchmark e performance no mundo real.
O Problema da Falta de Verdade Única
Outra lacuna: múltiplas fontes reportam resultados diferentes. De Model Cards a papers e plataformas de avaliação, não há alinhamento nos scores reportados. O resultado: a comunidade não tem uma única fonte de verdade.
A Solução: Community Evals
A Hugging Face está mudando a direção das avaliações no Hub ao decentralizar o reporting e permitir que toda a comunidade reporte scores para benchmarks abertamente.
Como Funciona
Para Benchmarks
- Dataset repos podem agora se registrar como benchmarks
- MMLU-Pro, GPQA e HLE já estão ativos
- Automaticamente agregam resultados reportados de todo o Hub
- Exibem leaderboards no dataset card
- O benchmark define o eval spec via
eval.yaml, baseado no formato Inspect AI - Resultados reportados precisam estar alinhados com a definição da tarefa
Para Modelos
- Eval scores vivem em
.eval_results/*.yamlno model repo - Aparecem no model card e são alimentados nos benchmark datasets
- Tanto os resultados do autor do modelo quanto PRs abertos para resultados serão agregados
- Autores de modelos podem fechar score PR e esconder resultados
Para a Comunidade
- Qualquer usuário pode submeter evaluation results para qualquer modelo via PR
- Resultados são mostrados como “community”, sem esperar por autores do modelo
- A comunidade pode linkar para fontes como papers, Model Cards, plataformas de avaliação de terceiros, ou inspecionar eval logs
- A comunidade pode discutir scores como qualquer PR
- Como o Hub é baseado em Git, há histórico de quando evals foram adicionados, quando mudanças foram feitas, etc.
Por Que Isso Importa
- Transparência: Expondo scores que já existem pela comunidade em fontes como model cards e papers
- Agregação: A comunidade pode construir em cima deles para agregar, rastrear e entender scores pelo campo
- APIs: Todos os scores serão expostos via Hub APIs, facilitando a agregação e construção de leaderboards curados, dashboards, etc.
Limitações Claras
A Hugging Face é honesta sobre o que isso não resolve:
- Não resolve a saturação de benchmarks
- Não fecha a lacuna benchmark-realidade
- Não impede treinamento em test sets
Mas torna o jogo visível expondo o que é avaliado, como, quando e por quem.
O Futuro: Benchmarks Reproduzíveis
Principalmente, a Hugging Face espera tornar o Hub um lugar ativo para construir e compartilhar benchmarks reproduzíveis, especialmente focando em:
- Novas tarefas
- Novos domínios
- Desafios que testem melhor modelos SOTA
Como Começar
- Adicionar eval results: Publique os evals que você conduziu como arquivos YAML em
.eval_results/em qualquer model repo - Verificar os scores: Confira os scores no dataset de benchmark
- Registrar novo benchmark: Adicione
eval.yamlao seu dataset repo e entre em contato para ser incluído na shortlist
A feature está em beta, e a Hugging Face está construindo em aberto. Feedback é bem-vindo.
Fontes: