Google 发布 DiffusionGemma：文本扩散并行生成，H100 可超 1000 tokens/s

Google 发布 DiffusionGemma：用文本扩散并行生成，单卡 H100 输出速度可超 1000 tokens/s

发布于：2026年6月11日栏目：行业动态

摘要

Google DeepMind 发布实验性开放模型 DiffusionGemma。它不再完全依赖逐 token 自回归生成，而是通过离散文本扩散并行去噪 256-token 画布，在专用 GPU 上实现最高约 4 倍输出加速。模型基于 Gemma 4 MoE 架构，适合本地低延迟交互、代码补全和结构化文本实验。

Google DeepMind 于 2026 年 6 月 10 日发布实验性开放模型 DiffusionGemma。与常见大语言模型逐 token 预测下一个词的方式不同，DiffusionGemma 引入离散文本扩散机制，通过并行去噪生成文本块，希望在本地交互式 AI 场景中降低等待时间。

Google 将它定位为研究与开发用途的开放模型，而不是直接替代标准 Gemma 4 的通用生产方案。官方明确表示，DiffusionGemma 优先考虑生成速度和并行布局能力；追求最高输出质量的应用，仍应优先选择标准 Gemma 4。

从逐 token 生成转向 256-token 并行画布

传统自回归模型需要按照顺序不断读取模型权重，并逐个生成 token。在单用户本地推理场景中，这种模式容易受到显存带宽限制，GPU 的并行计算能力无法完全利用。

DiffusionGemma 的思路是先初始化一个包含随机占位 token 的画布，再通过多轮去噪逐步修正内容。每个画布长度为 256 token，模型可以在一次前向计算中同时处理多个位置。对于超过 256 token 的长文本，系统会将已经完成去噪的文本块写入 KV Cache，再继续处理下一块内容。

这种设计保留了长文本生成所需的顺序稳定性，也让单个文本块可以利用双向注意力机制。画布中的 token 能够相互参考，模型可以在后续去噪步骤中修正先前位置的错误。

参数规模与速度表现

DiffusionGemma 基于 Gemma 4 的 MoE 架构。Google 对外通常使用“26B”这一口径，模型卡给出的精确数据为总参数 25.2B、推理激活参数 3.8B。模型支持最长 256K token 上下文，画布长度为 256 token。

Google 公布的测试结果显示，DiffusionGemma 在专用 GPU 上可获得最高约 4 倍输出加速：

单张 NVIDIA H100 上可超过 1000 tokens/s；
NVIDIA GeForce RTX 5090 上可超过 700 tokens/s；
量化后可在约 18GB 显存范围内部署，面向高端消费级显卡的本地推理实验。

模型卡还给出低批量场景下超过 1100 tokens/s 的 H100 FP8 数据。不同硬件、精度格式、采样设置和任务复杂度都会影响最终速度，实际部署时不能只比较峰值数字。

更适合低延迟交互和非线性文本任务

DiffusionGemma 的优势不只是“打字更快”。双向注意力和迭代修正机制让它更适合处理需要全局约束的任务，例如代码补全、行内编辑、结构化布局、数学图结构和氨基酸序列生成。

Google 在开发者指南中展示了数独微调案例。基础模型并未专门训练数独求解，成功率接近 0%；使用官方提供的 JAX SFT 配方进行适配后，成功率提升到 80%，推理步骤也明显减少。这个案例说明，文本扩散模型在需要反复校正多个位置的任务中，可能比严格从左到右生成更有发挥空间。

开放权重、Apache 2.0 许可，已支持 vLLM

DiffusionGemma 权重已经发布到 Hugging Face，并采用 Apache 2.0 许可。Google 也与 vLLM 团队完成适配，开发者可以通过 vLLM 的 OpenAI 兼容本地服务接口运行模型。

Google 还提供官方训练配方，开发者可结合 Hackable Diffusion、Unsloth 或 NVIDIA NeMo 进行定向微调。模型支持文本、图片和视频输入并生成文本输出，音频输入暂不支持。

国内开发者需要关注什么

对国内开发者而言，DiffusionGemma 最有吸引力的方向是本地低延迟体验。代码编辑器补全、桌面助手、离线文档处理、局域网知识库和交互式 Agent 都可能受益于更快的单用户输出速度。

但它并不是一款“同等质量下全面替代自回归模型”的产品。Google 公布的模型卡显示，DiffusionGemma 在多项知识、代码和视觉基准上的成绩低于标准 Gemma 4 26B A4B。选择模型时，需要在输出质量、峰值速度、硬件成本和并发规模之间权衡。

另一个现实问题是显存。量化后约 18GB 的部署门槛已经接近消费级显卡可用范围，但对普通笔记本和入门显卡仍不友好。更适合先在 RTX 4090、RTX 5090、工作站或云端 GPU 上测试。

DiffusionGemma 的意义在于，文本生成开始出现更成熟的非自回归工程路线。过去大模型体验优化主要依赖更强硬件、量化、投机解码和服务端批处理；Google 这次把文本扩散推到开放模型和主流推理框架中，让开发者可以直接验证并行生成是否适合自己的业务。

它的第一批用户很可能不是追求通用问答质量的普通用户，而是愿意为低延迟、本地运行和可定制性投入算力的开发者。对于实时编辑、代码补全和结构化生成工具，DiffusionGemma 提供了一条值得实际测试的新路径。

Google Google DeepMind DiffusionGemma Gemma 4 开源模型文本扩散 vLLM 本地 AI

行业动态