Qwen 3.5 Medium: Alibaba Lança Modelos Mais Inteligentes com Menos Computação

Alibaba Qwen Team Lança Série Qwen 3.5 Medium: Potência de Produção que Prova que Modelos Menores São Mais Inteligentes

A equipe Qwen da Alibaba anunciou o lançamento da série Qwen 3.5 Medium Model, marcando uma mudança significativa na abordagem de desenvolvimento de modelos de linguagem grandes (LLMs). Em vez de perseguir escala bruta com trilhões de parâmetros, a nova série prioriza eficiência arquitetônica e dados de alta qualidade.

A série inclui quatro modelos: Qwen3.5-Flash, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B e Qwen3.5-27B. Estes modelos demonstram que escolhas arquiteturais estratégicas e Aprendizado por Reforço (RL) podem alcançar inteligência de nível de ponta com requisitos de computação significativamente menores.

O Avanço de Eficiência: 35B Supera 235B

O marco técnico mais notável é o desempenho do Qwen3.5-35B-A3B, que agora supera o Qwen3-235B-A22B-2507 mais antigo e o Qwen3-VL-235B-A22B com capacidades de visão.

O sufixo “A3B” é a métrica chave. Isso indica os Parâmetros Ativos em uma arquitetura Mixture-of-Experts (MoE). Embora o modelo tenha 35 bilhões de parâmetros totais, ele ativa apenas 3 bilhões durante qualquer passe de inferência única. O fato de um modelo com 3B de parâmetros ativos poder superar um predecessor com 22B de parâmetros ativos destaca um grande salto na densidade de raciocínio.

Essa eficiência é impulsionada por uma arquitetura híbrida que integra Gated Delta Networks (atenção linear) com blocos padrão de Gated Attention. Esse design permite decodificação de alta vazão e uma pegada de memória reduzida, tornando IA de alto desempenho mais acessível em hardware padrão.

Qwen3.5-Flash: Otimizado para Produção

Qwen3.5-Flash serve como a versão de produção hospedada do modelo 35B-A3B. É desenvolvido especificamente para desenvolvedores de software que exigem desempenho de baixa latência em workflows agentic.

  • Janela de Contexto de 1M: Ao fornecer uma janela de contexto de 1 milhão de tokens por padrão, o Flash reduz a necessidade de pipelines complexos de RAG (Retrieval-Augmented Generation) ao lidar com grandes conjuntos de documentos ou codebases.

  • Ferramentas Nativas Oficiais: O modelo apresenta suporte nativo para uso de ferramentas e chamada de função, permitindo que ele interaja diretamente com APIs e bancos de dados com alta precisão.

Cenários Agentic de Alto Raciocínio

Os modelos Qwen3.5-122B-A10B e Qwen3.5-27B são projetados para tarefas “agentic” — cenários onde um modelo precisa planejar, raciocinar e executar workflows de múltiplos passos. Estes modelos estreitam a lacuna entre alternativas de código aberto e modelos proprietários de ponta.

A equipe Alibaba Qwen utilizou um pipeline de pós-treinamento em quatro estágios para estes modelos, envolvendo longas inicializações frias de cadeia de pensamento (CoT) e RL baseado em raciocínio. Isso permite que o modelo 122B-A10B, utilizando apenas 10 bilhões de parâmetros ativos, mantenha consistência lógica em tarefas de longo horizonte, rivalizando com o desempenho de modelos densos muito maiores.

Principais Destaques

  • Eficiência Arquitetural (MoE): O modelo Qwen3.5-35B-A3B, com apenas 3 bilhões de parâmetros ativos (A3B), supera o modelo 235B da geração anterior. Isso demonstra que a arquitetura Mixture-of-Experts (MoE), quando combinada com qualidade superior de dados e Aprendizado por Reforço (RL), pode entregar inteligência de “nível de fronteira” a uma fração do custo computacional.

  • Desempenho Pronto para Produção (Flash): Qwen3.5-Flash é a versão de produção hospedada alinhada com o modelo 35B. É especificamente otimizado para aplicações de alta vazão e baixa latência, tornando-se o “cavalo de batalha” para desenvolvedores que movem de protótipo para implantação em escala empresarial.

  • Janela de Contexto Massiva: A série apresenta um comprimento de contexto de 1M por padrão. Isso permite tarefas de contexto longo como análise completa de repositórios de código ou recuperação massiva de documentos sem a necessidade de estratégias complexas de “chunking” RAG (Retrieval-Augmented Generation), simplificando significativamente o workflow do desenvolvedor.

  • Uso Nativo de Ferramentas e Capacidades Agentic: Ao contrário de modelos que requerem engenharia de prompt extensiva para interações externas, o Qwen 3.5 inclui ferramentas embutidas oficiais. Esse suporte nativo para chamada de função e interação com API o torna altamente eficaz para cenários “agentic” onde o modelo precisa planejar e executar workflows de múltiplos passos.

  • O Ponto Ideal “Médio”: Ao focar em modelos variando de 27B a 122B (A10B ativo), a Alibaba está mirando na zona “Goldilocks” da indústria. Estes modelos são pequenos o suficiente para rodar em infraestrutura de nuvem privada ou localizada, mantendo o raciocínio complexo e consistência lógica tipicamente reservados para modelos massivos proprietários e fechados.

Disponibilidade

Os pesos do modelo estão disponíveis no Hugging Face e o Flash API pode ser acessado através da Alibaba Cloud.

Fontes


Este post foi gerado por IA usando GLM-4.7