Hugging Face Community Evals: Avaliação de Modelos Descentralizada e Transparente

O Problema: Avaliação de Modelos Está Quebrada

Em 2026, a avaliação de modelos de IA enfrenta uma crise de credibilidade. Benchmarks clássicos como MMLU estão saturados acima de 91%, GSM8K atingiu 94%+, e HumanEval foi conquistado. Mas modelos que acertam esses benchmarks muitas vezes ainda não conseguem:

  • Navegar na web de forma confiável
  • Escrever código de produção
  • Lidar com tarefas multi-etapas sem alucinar

Existe uma clara lacuna entre scores de benchmark e performance no mundo real.

O Problema da Falta de Verdade Única

Outra lacuna: múltiplas fontes reportam resultados diferentes. De Model Cards a papers e plataformas de avaliação, não há alinhamento nos scores reportados. O resultado: a comunidade não tem uma única fonte de verdade.

A Solução: Community Evals

A Hugging Face está mudando a direção das avaliações no Hub ao decentralizar o reporting e permitir que toda a comunidade reporte scores para benchmarks abertamente.

Como Funciona

Para Benchmarks

  • Dataset repos podem agora se registrar como benchmarks
  • MMLU-Pro, GPQA e HLE já estão ativos
  • Automaticamente agregam resultados reportados de todo o Hub
  • Exibem leaderboards no dataset card
  • O benchmark define o eval spec via eval.yaml, baseado no formato Inspect AI
  • Resultados reportados precisam estar alinhados com a definição da tarefa

Para Modelos

  • Eval scores vivem em .eval_results/*.yaml no model repo
  • Aparecem no model card e são alimentados nos benchmark datasets
  • Tanto os resultados do autor do modelo quanto PRs abertos para resultados serão agregados
  • Autores de modelos podem fechar score PR e esconder resultados

Para a Comunidade

  • Qualquer usuário pode submeter evaluation results para qualquer modelo via PR
  • Resultados são mostrados como “community”, sem esperar por autores do modelo
  • A comunidade pode linkar para fontes como papers, Model Cards, plataformas de avaliação de terceiros, ou inspecionar eval logs
  • A comunidade pode discutir scores como qualquer PR
  • Como o Hub é baseado em Git, há histórico de quando evals foram adicionados, quando mudanças foram feitas, etc.

Por Que Isso Importa

  1. Transparência: Expondo scores que já existem pela comunidade em fontes como model cards e papers
  2. Agregação: A comunidade pode construir em cima deles para agregar, rastrear e entender scores pelo campo
  3. APIs: Todos os scores serão expostos via Hub APIs, facilitando a agregação e construção de leaderboards curados, dashboards, etc.

Limitações Claras

A Hugging Face é honesta sobre o que isso não resolve:

  • Não resolve a saturação de benchmarks
  • Não fecha a lacuna benchmark-realidade
  • Não impede treinamento em test sets

Mas torna o jogo visível expondo o que é avaliado, como, quando e por quem.

O Futuro: Benchmarks Reproduzíveis

Principalmente, a Hugging Face espera tornar o Hub um lugar ativo para construir e compartilhar benchmarks reproduzíveis, especialmente focando em:

  • Novas tarefas
  • Novos domínios
  • Desafios que testem melhor modelos SOTA

Como Começar

  1. Adicionar eval results: Publique os evals que você conduziu como arquivos YAML em .eval_results/ em qualquer model repo
  2. Verificar os scores: Confira os scores no dataset de benchmark
  3. Registrar novo benchmark: Adicione eval.yaml ao seu dataset repo e entre em contato para ser incluído na shortlist

A feature está em beta, e a Hugging Face está construindo em aberto. Feedback é bem-vindo.


Fontes:

Traduções: