Anthropic Acusa Laboratórios Chineses de Ataques de Destilação em Escala Industrial

Anthropic Revela Ataques de Destilação por Laboratórios Chineses

A Anthropic acusou publicamente três laboratórios de IA chineses — DeepSeek, Moonshot AI e MiniMax — de conduzir campanhas em escala industrial para extrair capacidades do Claude através de ataques de destilação. Segundo a empresa, mais de 24.000 contas fraudulentas geraram mais de 16 milhões de interações com o modelo, violando os termos de serviço e restrições regionais de acesso.

Como Funcionam os Ataques de Destilação

A destilação é uma técnica de treinamento onde um modelo menos capaz é treinado nas saídas de um modelo mais forte. Embora amplamente usada de forma legítima pelas próprias empresas de IA (para criar versões menores e mais baratas de seus modelos), a técnica também pode ser usada de forma ilícita: concorrentes podem usá-la para adquirir capacidades poderosas de outros laboratórios em uma fração do tempo e custo que seria necessário para desenvolvê-las independentemente.

Os Três Laboratórios e Suas Campanhas

DeepSeek: 150.000 Interações

A operação da DeepSeek focou em:

  • Capacidades de raciocínio em diversas tarefas
  • Tarefas de avaliação baseadas em rubricas para transformar Claude em um modelo de recompensa para aprendizado por reforço
  • Criação de alternativas seguras contra censura para consultas sensíveis a políticas

A DeepSeek gerou tráfego sincronizado através de contas, com padrões idênticos, métodos de pagamento compartilhados e tempo coordenado sugerindo “balanceamento de carga” para aumentar throughput e evitar detecção.

Moonshot AI: 3,4 Milhões de Interações

A operação da Moonshot (modelos Kimi) focou em:

  • Raciocínio agentic e uso de ferramentas
  • Programação e análise de dados
  • Desenvolvimento de agentes de uso de computador
  • Visão computacional

A empresa empregou centenas de contas fraudulentas abrangendo múltiplos caminhos de acesso, dificultando a detecção como uma operação coordenada.

MiniMax: 13 Milhões de Interações

A operação da MiniMax focou em:

  • Programação agentic
  • Uso de ferramentas e orquestração

A Anthropic detectou esta campanha enquanto ainda estava ativa — antes do MiniMax lançar o modelo que estava treinando — dando visibilidade sem precedentes no ciclo de vida de ataques de destilação. Quando a Anthropic lançou um novo modelo durante a campanha ativa do MiniMax, a empresa redirecionou quase metade de seu tráfego em 24 horas para capturar capacidades do novo sistema.

Como os Destiladores Acessam Modelos Frontier

Por razões de segurança nacional, a Anthropic não oferece atualmente acesso comercial ao Claude na China ou a subsidiárias de empresas chinesas localizadas fora do país. Para contornar isso, os laboratórios usam serviços de proxy comerciais que revendem acesso ao Claude e outros modelos de IA frontier em escala.

Esses serviços operam o que a Anthropic chama de “arquiteturas de cluster hidra”: redes extensas de contas fraudulentas que distribuem tráfego através da API da Anthropic e plataformas de nuvem de terceiros. A amplitude dessas redes significa que não há pontos únicos de falha. Quando uma conta é banida, outra toma seu lugar. Em um caso, uma única rede de proxy gerenciou mais de 20.000 contas fraudulentas simultaneamente.

Implicações de Segurança Nacional

A Anthropic alerta que modelos destilados ilicitamente carecem de salvaguardas necessárias, criando riscos significativos de segurança nacional. A empresa e outras companhias americanas constroem sistemas que impedem atores estatais e não estatais de usar IA para, por exemplo, desenvolver bioterrorismos ou realizar atividades cibernéticas maliciosas.

Modelos construídos através de destilação ilícita provavelmente não retêm essas salvaguardas, significando que capacidades perigosas podem proliferar com muitas proteções removidas inteiramente.

Laboratórios estrangeiros que destilam modelos americanos podem então alimentar essas capacidades desprotegidas em sistemas militares, de inteligência e de vigilância — permitindo que governos autoritários implantem IA frontier para operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa.

Conexão com Controles de Exportação

A Anthropic argumenta que ataques de destilação minam os controles de exportação ao permitir que laboratórios estrangeiros, incluindo aqueles sob controle do Partido Comunista Chinês, fechem a vantagem competitiva que os controles de exportação foram projetados para preservar.

Sem visibilidade sobre esses ataques, os avanços aparentemente rápidos feitos por esses laboratórios são incorretamente tomados como evidência de que os controles de exportação são ineficazes e capazes de serem contornados por inovação. Na realidade, esses avanços dependem em parte significativa de capacidades extraídas de modelos americanos, e executar essa extração em escala requer acesso a chips avançados.

“Os ataques de destilação portanto reforçam a racional para os controles de exportação: acesso restrito a chips limita tanto o treinamento direto de modelos quanto a escala de destilação ilícita”, afirma a Anthropic.

Resposta da Anthropic

A Anthropic continua investindo pesadamente em defesas que tornam esses ataques de destilação mais difíceis de executar e mais fáceis de identificar, incluindo:

  • Detecção: Classificadores e sistemas de fingerprinting comportamental para identificar padrões de ataque de destilação no tráfego da API
  • Compartilhamento de inteligência: Compartilhamento de indicadores técnicos com outros laboratórios de IA, provedores de nuvem e autoridades relevantes
  • Controles de acesso: Fortalecimento de verificação para contas educacionais, programas de pesquisa de segurança e organizações de startups
  • Contramedidas: Desenvolvimento de salvaguardas em nível de produto, API e modelo projetadas para reduzir a eficácia de saídas de modelo para destilação ilícita

A Anthropic enfatiza que nenhuma empresa pode resolver isso sozinha e que ataques de destilação nesta escala exigem uma resposta coordenada através da indústria de IA, provedores de nuvem e legisladores.

Fontes


Este post foi gerado por IA usando GLM-4.7

Traduções: