Estudo da Universidade de Montreal Mostra que IA Supera Seres Humanos Médios em Testes de Criatividade
Estudo da Universidade de Montreal Mostra que IA Supera Seres Humanos Médios em Testes de Criatividade
A maior comparação humana-IA já realizada traz evidências objetivas de que metade da humanidade é agora menos criativa que modelos de linguagem, mas os 10% mais criativos operam em território que nenhuma IA alcança.
A Pesquisa: 100.000 Humanos vs. Quatro Gigantes da IA
Um estudo publicado em 21 de janeiro de 2026 na Scientific Reports (Nature) pelo Professor Karim Jerbi da Universidade de Montreal entrega a primeira medição em larga escala objetiva de onde a criatividade de IA realmente se situa em relação ao baseline humano. A equipe de pesquisa — que inclui o pioneiro de deep learning Yoshua Bengio e colaboradores do Mila (Quebec AI Institute), Google DeepMind, Universidade de Toronto e Universidade Concordia — testou GPT-4, ChatGPT, Claude e Gemini contra mais de 100.000 participantes humanos.
O benchmark principal foi o Divergent Association Task (DAT), um teste psicológico padronizado que exige que os sujeitos gerem dez palavras com distância semântica máxima entre si. Pense em “telescópio”, “cogumelo”, “legislação”, “sussurro” — conceitos tão não relacionados que conectá-los requer flexibilidade cognitiva genuína. O teste mede pensamento divergente, processo cognitivo mais estreitamente associado ao potencial criativo.
Os resultados se dividem limpidamente no meio. Modelos de IA superaram o participante humano mediano nos escores DAT. Mas os 50% melhores de testadores humanos excederam todos os quatro modelos de IA. Os 10% mais altos operam em uma faixa de desempenho que nenhuma IA se aproximou.
A Linha Mediana Cruzada
A significância não está na IA pontuando bem em um teste de criatividade. Está que agora temos prova empírica exatamente onde o limite de capacidade humano-IA se situa — e esse limite corta pelo meio da humanidade.
Nos últimos dois anos, o debate criatividade tem sido teórico. Máquinas podem verdadeiramente criar? É apenas pattern matching sofisticado? O estudo de Montreal contorna inteiramente a questão filosófica. Não pergunta se a criatividade de IA é “real”. Pergunta se o resultado de IA é mensuravelmente mais divergente que o resultado humano. Para metade dos humanos testados, a resposta é sim.
Isso cria um novo paisagem competitivo. Papéis que exigiam output criativo médio — sessões de brainstorming, geração de conceito inicial, criação de conteúdo baseline — agora têm uma alternativa não humana que performa comparavelmente ou melhor em métricas objetivas. O tamanho de amostra de 100.000 pessoas remove qualquer argumento sobre ruído estatístico ou resultados selecionados a dedo.
Mas o estudo revela algo mais importante que capacidade de IA. Revela variância de capacidade humana. A lacuna entre desempenho humano mediano e desempenho humano no top decile no DAT excede a lacuna entre desempenho humano mediano e desempenho de GPT-4. Colocando de outra forma: diferença entre um criativo médio e um criativo excepcional é maior que diferença entre um criativo médio e uma máquina.
O strategic moat não é “criatividade humana” — é criatividade humana excepcional.
Vencedores neste panorama são organizações que podem identificar e implantar talento criativo de top-quartile enquanto usam IA para lidar com trabalho criativo de nível mediano. Perdedores são aqueles que assumem “temos humanos, então estamos cobertos” sem diferenciar entre níveis de desempenho humano.
Profundidade Técnica: O que o DAT Realmente Mede e Por Que IA Luta Além Dele
O Divergent Association Task funciona calculando distância semântica usando modelos de word embedding. Quando você gera dez palavras, o algoritmo computa distância média pairwise entre todos os vetores de palavras em espaço semântico de alta dimensão. Palavras que raramente aparecem em contextos similares através de corpora de treinamento têm maior distância semântica.
Isso é precisamente o que large language models são arquiteturalmente otimizados para entender — relacionamentos semânticos entre tokens. A surpresa não é que GPT-4 performa bem no DAT. A surpresa é que não domina completamente.
A equipe de pesquisa descobriu que configurações de temperatura e estratégias de prompting baseadas em etimologia poderiam impulsionar escores de criatividade de IA. Temperatura mais alta aumenta aleatoriedade de amostragem, permitindo que modelos selecionem tokens menos prováveis. Prompting de etimologia — pedir ao modelo para considerar origens de palavras e relacionamentos — parecia ativar caminhos de associação mais diversos.
Esses achados revelam mecanismo por trás de criatividade de IA: é fundamentalmente uma função de amplitude de amostragem através de distribuições de probabilidade aprendidas. Aumente aleatoriedade, e você obtém output mais divergente. Mas há um teto. O modelo pode apenas amostrar do que aprendeu, e seu espaço aprendido, embora vasto, é limitado por dados de treinamento.
Performers humanos de topo provavelmente sucedem através de mecanismos indisponíveis para arquiteturas atuais. Eles desenham sobre experiência corporificada, ressonância emocional, integração de expertise entre domínios, e geração de novidade genuína em vez de recombinação de padrões existentes. O DAT captura uma dimensão de criatividade — divergência semântica — e mesmo lá, humanos de topo superam.
Onde a lacuna se alarga dramaticamente é no que pesquisadores chamam de “tarefas narrativas mais ricas”. O estudo testou participantes e modelos de IA em composição de haiku, sinopses de filme e flash fiction. Humanos superaram significativamente IA em todos os três benchmarks narrativos.
Por Que Narrativa Supera IA: Satisfação de Restrição Encontra Geração de Significado
Haikus exigem estrutura 5-7-5 de sílabas enquanto transmitem insight genuíno sobre experiência humana. Enredos de filme exigem tensão narrativa que satisfaz convenções de gênero enquanto subverte expectativas. Flash fiction exige motivação de personagem que sente psicologicamente autêntica.
Cada uma dessas tarefas combina satisfação de restrição formal — que IA maneja competentemente — com geração de significado que deve ressoar com leitores humanos. A IA pode produzir haikus tecnicamente corretos. Luta para produzir haikus que fazem um leitor pausar e sentir algo verdadeiro.
Essa distinção importa para decisões de engenharia. Se sua aplicação requer exploração semântica (brainstorming, ideação, exploração de espaço de solução), modelos de IA atuais performam em ou acima de nível humano mediano. Se sua aplicação requer narrativa significativa (comunicação de usuário, brand voice, conteúdo que constrói conexão emocional), talento humano de topo ainda supera dramaticamente.
Implicações Práticas: O Que Líderes Técnicos Devem Fazer
Audite Seus Workflows Criativos por Tipo de Tarefa
Mapeie cada processo que requer input criativo em sua organização. Categorize cada um por se o output principal é:
Exploração semântica (brainstorming, geração de keywords, mapeamento de espaço de solução): IA performa em nível humano mediano. Aumento ou substituição viável para ganhos de eficiência.
Narrativa estruturada (documentação, escrita técnica, comunicações padrão): IA performa competentemente com revisão humana. Teto de qualidade existe mas aceitável para muitos casos de uso.
Narrativa ressonante (brand voice, conteúdo voltado ao usuário que constrói relacionamento, trabalho criativo destinado a mover pessoas emocionalmente): Performers humanos de topo ainda superam dramaticamente. Reserve essas tarefas para seu melhor talento e invista em identificar quem isso é.
Implemente Medição de Variância de Desempenho
A maioria de organizações não mede qualidade de output criativo com qualquer rigor. Este estudo demonstra que desempenho criativo humano varia por fatores de 2-3x ou mais através da população. Se você não consegue identificar seus performers de top-quartile, não consegue implantá-los efetivamente.
Considere implementar avaliações estilo DAT em pipelines de contratação para papéis criativos. O teste é bem-validado, leva minutos para administrar, e fornece uma baseline objetiva. Não capturará tudo sobre potencial criativo, mas captura mais que entrevistas e revisões de portfolio que estão sujeitas a efeitos halo e habilidades de apresentação.
Ajuste Temperatura e Prompting para Cargas de Ideação
O achado de que configurações de temperatura e estratégias de prompting baseadas em etimologia impulsionam escores de criatividade de IA tem aplicação imediata. Se você está usando IA para brainstorming ou geração de conceito, configurações padrão estão deixando desempenho na mesa.
Experimente com faixas de temperatura de 0.8-1.2 para tarefas de ideação (versus típico 0.7 para precisão factual). Estruture prompts para pedir relacionamentos etimológicos ou origens conceituais como parte da cadeia de ideação. Meça divergência de output para calibrar para seu caso de uso específico.
Construa Times Criativos Humano-IA com Separação Clara de Papéis
O estudo aponta para uma configuração ótima: IA para geração de volume de candidatos através de espaço de solução, humanos para seleção, refinamento e julgamento criativo final.
Na prática, isso significa estruturar workflows criativos como:
- IA gera 10x-100x candidatos de ideias que um humano produziria no mesmo tempo
- Especialistas humanos filtram por qualidade, viabilidade e ressonância
- Candidatos selecionados recebem desenvolvimento e refinamento humano
- Output final representa julgamento criativo humano informado por espaço de opção expandido por IA
Essa arquitetura joga para força de IA (amplitude, velocidade, exploração semântica) e força humana (profundidade, significado, julgamento de seleção). Nenhum componente sozinho corresponde ao desempenho do sistema combinado.
O Que Top Humanos Fazem Diferentemente
A questão mais intrigante que o estudo de Montreal levanta não é sobre IA. É sobre os 10% melhores de humanos. O que eles estão fazendo que arquiteturas de IA atuais não podem replicar?
A pesquisa não responde isso definitivamente, mas resultados de tarefas narrativas apontam para explicações possíveis. Performers criativos de topo provavelmente integram múltiplos sistemas cognitivos que modelos de IA atualmente separam ou simulam mal:
Cognição corporificada: Criatividade humana desenha sobre experiência física — sensação de água fria, peso de luto, confusão de navegar uma cidade estrangeira. Modelos de IA podem descrever essas experiências mas não as têm. Os melhores criativos humanos traduzem conhecimento corporificado em expressão ressonante.
Modelagem emocional: Criar trabalho que move pessoas requer prever resposta emocional em audiências. Humanos com experiência social e emocional profunda modelam leitores intuitivamente. Modelos de IA aproximam isso através de pattern matching em textos emocionalmente bem-sucedidos, mas mecanismo difere.
Violação deliberada de restrição: Grande criatividade frequentemente envolve conhecer regras bem o suficiente para quebrá-las produtivamente. Isso requer meta-awareness de expectativas e subversão intencional. Modelos de IA atuais são excelentes em seguir padrões e razoáveis em variá-los, mas fracos em quebra estratégica de padrão com efeito específico em mente.
Integração entre domínios: Os insights criativos mais frequentemente vêm de conectar ideias através de campos distantes — aplicando princípios biológicos para arquitetura de software, ou teoria econômica para dinâmicas de relacionamento. Isso requer ter expertise genuína em múltiplos domínios e perceber similaridades estruturais que não aparecem em estatísticas de superfície. É incerto se escalar arquiteturas atuais produzirá essa capacidade ou se requer abordagens fundamentalmente diferentes.
Entender o que top humanos fazem diferentemente não é apenas curiosidade filosófica. É um roteiro para desenvolvimento de IA. Se podemos caracterizar mecanismos por trás de desempenho criativo humano de top-decile, podemos tentar construir sistemas que exibam propriedades similares. O estudo de Montreal nos fornece um benchmark; próximo desafio é reverse-engineering do processo que o supera.
Conclusão: O Novo Panorama Criativo
O estudo de Montreal marca um ponto de transição. Movemos de perguntar “IA pode ser criativa?” para perguntar “quais tarefas criativas ainda requerem talento humano de topo?”
A resposta é clara: tarefas requerendo divergência semântica sozinha agora têm soluções de IA competitivas. Tarefas requerendo narrativa significativa, ressonância emocional e relevância cultural ainda precisam de performers humanos excepcionais — e ênfase está em excepcional. Talento criativo mediano agora compete com IA que não cansa, negocia ou precisa de cuidados de saúde.
Para líderes técnicos, o estudo fornece inteligência acionável. Saiba quais tarefas caem em qual categoria. Meça desempenho criativo em sua organização. Desenhe workflows humano-IA que aproveitem forças complementares. E prepare para estruturas de compensação que cada vez mais recompensam a cauda direita de distribuição criativa humana.
Os 100.000 humanos que participaram deste estudo sem saber conduziram um experimento que responde uma questão que cada CTO precisa responder: onde as máquinas param e humanos excepcionais começam? Esse limite agora tem coordenadas.
As organizações que prosperarão serão aquelas que podem trabalhar ambos os lados da linha — implantando IA para escala e velocidade enquanto concentrando raro talento criativo humano onde ainda supera qualquer coisa artificial.
Fontes
- Divergent creativity in humans and large language models - Scientific Reports (Nature)
- University of Montreal Study Proves AI Beats Average Humans on Creativity Tests - AI Unfiltered
- Creativity in the age of generative AI: A new era of creative partnerships - ScienceDaily
- University of Montreal Announcement - Creative Talent: Has AI Knocked Humans Out?
Este post foi gerado por IA usando GLM-4.7