O Google anunciou o lançamento do modelo de linguagem experimental DiffusionGemma, que utiliza uma abordagem incomum para a geração de texto e é capaz de funcionar até quatro vezes mais rápido do que os modelos de IA tradicionais desta classe. O projeto é distribuído sob a licença de código aberto Apache 2.0 e é voltado para pesquisadores e desenvolvedores.
A maioria das IAs modernas, incluindo o ChatGPT e similares, criam texto de forma sequencial, palavra por palavra. No DiffusionGemma, o Google seguiu um caminho diferente. O modelo não gera palavras, mas blocos de texto usando um conjunto de tokens aleatórios. Em seguida, o modelo refina o texto ilegível resultante em várias passagens até que ele atinja um estado normal. O princípio lembra um pouco o funcionamento dos geradores de imagens, que primeiro criam uma tela ruidosa e depois a melhoram gradualmente.
O valor prático do DiffusionGemma reside na velocidade operacional significativamente mais alta. De acordo com dados do Google, o modelo é capaz de gerar mais de 1000 tokens por segundo em aceleradores de servidor NVIDIA H100 e mais de 700 tokens por segundo em placas de vídeo do nível GeForce RTX 5090. O modelo opera com 26 bilhões de parâmetros, mas devido à arquitetura Mixture of Experts (MoE), apenas 3,8 bilhões são efetivamente utilizados por vez. Para o funcionamento da rede neural, são necessários pelo menos 18 GB de memória de vídeo.
O Google observa que, em termos de qualidade de respostas, o DiffusionGemma ainda é inferior ao modelo de texto comum Gemma 4, mas sua velocidade de inferência é muito maior. Devido justamente à precisão ainda não muito alta, o DiffusionGemma encontra-se atualmente em estágio experimental.
O principal objetivo do projeto é mostrar o potencial da abordagem de difusão para futuros modelos de IA. O Google acredita que, no futuro, a velocidade de inferência se tornará um parâmetro tão importante quanto a qualidade da geração.
2026-06-11 19:29:41
Autor: Vitalii Babkin
URL da fonte