Hugging Face Community Evals: Avaliação de Modelos Descentralizada e Transparente

Feb 16, 2026 · 3 min read · huggingface evaluations benchmarks community open-source ·

Partilhar:

O Problema: Avaliação de Modelos Está Quebrada

Em 2026, a avaliação de modelos de IA enfrenta uma crise de credibilidade. Benchmarks clássicos como MMLU estão saturados acima de 91%, GSM8K atingiu 94%+, e HumanEval foi conquistado. Mas modelos que acertam esses benchmarks muitas vezes ainda não conseguem:

Navegar na web de forma confiável
Escrever código de produção
Lidar com tarefas multi-etapas sem alucinar

Existe uma clara lacuna entre scores de benchmark e performance no mundo real.

O Problema da Falta de Verdade Única

Outra lacuna: múltiplas fontes reportam resultados diferentes. De Model Cards a papers e plataformas de avaliação, não há alinhamento nos scores reportados. O resultado: a comunidade não tem uma única fonte de verdade.

A Solução: Community Evals

A Hugging Face está mudando a direção das avaliações no Hub ao decentralizar o reporting e permitir que toda a comunidade reporte scores para benchmarks abertamente.

Como Funciona

Para Benchmarks

Dataset repos podem agora se registrar como benchmarks
MMLU-Pro, GPQA e HLE já estão ativos
Automaticamente agregam resultados reportados de todo o Hub
Exibem leaderboards no dataset card
O benchmark define o eval spec via eval.yaml, baseado no formato Inspect AI
Resultados reportados precisam estar alinhados com a definição da tarefa

Para Modelos

Eval scores vivem em .eval_results/*.yaml no model repo
Aparecem no model card e são alimentados nos benchmark datasets
Tanto os resultados do autor do modelo quanto PRs abertos para resultados serão agregados
Autores de modelos podem fechar score PR e esconder resultados

Para a Comunidade

Qualquer usuário pode submeter evaluation results para qualquer modelo via PR
Resultados são mostrados como “community”, sem esperar por autores do modelo
A comunidade pode linkar para fontes como papers, Model Cards, plataformas de avaliação de terceiros, ou inspecionar eval logs
A comunidade pode discutir scores como qualquer PR
Como o Hub é baseado em Git, há histórico de quando evals foram adicionados, quando mudanças foram feitas, etc.

Por Que Isso Importa

Transparência: Expondo scores que já existem pela comunidade em fontes como model cards e papers
Agregação: A comunidade pode construir em cima deles para agregar, rastrear e entender scores pelo campo
APIs: Todos os scores serão expostos via Hub APIs, facilitando a agregação e construção de leaderboards curados, dashboards, etc.

Limitações Claras

A Hugging Face é honesta sobre o que isso não resolve:

Não resolve a saturação de benchmarks
Não fecha a lacuna benchmark-realidade
Não impede treinamento em test sets

Mas torna o jogo visível expondo o que é avaliado, como, quando e por quem.

O Futuro: Benchmarks Reproduzíveis

Principalmente, a Hugging Face espera tornar o Hub um lugar ativo para construir e compartilhar benchmarks reproduzíveis, especialmente focando em:

Novas tarefas
Novos domínios
Desafios que testem melhor modelos SOTA

Como Começar

Adicionar eval results: Publique os evals que você conduziu como arquivos YAML em .eval_results/ em qualquer model repo
Verificar os scores: Confira os scores no dataset de benchmark
Registrar novo benchmark: Adicione eval.yaml ao seu dataset repo e entre em contato para ser incluído na shortlist

A feature está em beta, e a Hugging Face está construindo em aberto. Feedback é bem-vindo.

Fontes: