Google 发布 DiffusionGemma:用文本扩散并行生成,单卡 H100 输出速度可超 1000 tokens/s
摘要
Google DeepMind 发布实验性开放模型 DiffusionGemma。它不再完全依赖逐 token 自回归生成,而是通过离散文本扩散并行去噪 256-token 画布,在专用 GPU 上实现最高约 4 倍输出加速。模型基于 Gemma 4 MoE 架构,适合本地低延迟交互、代码补全和结构化文本实验。
Google DeepMind 于 2026 年 6 月 10 日发布实验性开放模型 DiffusionGemma。与常见大语言模型逐 token 预测下一个词的方式不同,DiffusionGemma 引入离散文本扩散机制,通过并行去噪生成文本块,希望在本地交互式 AI 场景中降低等待时间。
Google 将它定位为研究与开发用途的开放模型,而不是直接替代标准 Gemma 4 的通用生产方案。官方明确表示,DiffusionGemma 优先考虑生成速度和并行布局能力;追求最高输出质量的应用,仍应优先选择标准 Gemma 4。
从逐 token 生成转向 256-token 并行画布
传统自回归模型需要按照顺序不断读取模型权重,并逐个生成 token。在单用户本地推理场景中,这种模式容易受到显存带宽限制,GPU 的并行计算能力无法完全利用。
DiffusionGemma 的思路是先初始化一个包含随机占位 token 的画布,再通过多轮去噪逐步修正内容。每个画布长度为 256 token,模型可以在一次前向计算中同时处理多个位置。对于超过 256 token 的长文本,系统会将已经完成去噪的文本块写入 KV Cache,再继续处理下一块内容。
这种设计保留了长文本生成所需的顺序稳定性,也让单个文本块可以利用双向注意力机制。画布中的 token 能够相互参考,模型可以在后续去噪步骤中修正先前位置的错误。
参数规模与速度表现
DiffusionGemma 基于 Gemma 4 的 MoE 架构。Google 对外通常使用“26B”这一口径,模型卡给出的精确数据为总参数 25.2B、推理激活参数 3.8B。模型支持最长 256K token 上下文,画布长度为 256 token。
Google 公布的测试结果显示,DiffusionGemma 在专用 GPU 上可获得最高约 4 倍输出加速:
- 单张 NVIDIA H100 上可超过 1000 tokens/s;
- NVIDIA GeForce RTX 5090 上可超过 700 tokens/s;
- 量化后可在约 18GB 显存范围内部署,面向高端消费级显卡的本地推理实验。
模型卡还给出低批量场景下超过 1100 tokens/s 的 H100 FP8 数据。不同硬件、精度格式、采样设置和任务复杂度都会影响最终速度,实际部署时不能只比较峰值数字。
更适合低延迟交互和非线性文本任务
DiffusionGemma 的优势不只是“打字更快”。双向注意力和迭代修正机制让它更适合处理需要全局约束的任务,例如代码补全、行内编辑、结构化布局、数学图结构和氨基酸序列生成。
Google 在开发者指南中展示了数独微调案例。基础模型并未专门训练数独求解,成功率接近 0%;使用官方提供的 JAX SFT 配方进行适配后,成功率提升到 80%,推理步骤也明显减少。这个案例说明,文本扩散模型在需要反复校正多个位置的任务中,可能比严格从左到右生成更有发挥空间。
开放权重、Apache 2.0 许可,已支持 vLLM
DiffusionGemma 权重已经发布到 Hugging Face,并采用 Apache 2.0 许可。Google 也与 vLLM 团队完成适配,开发者可以通过 vLLM 的 OpenAI 兼容本地服务接口运行模型。
Google 还提供官方训练配方,开发者可结合 Hackable Diffusion、Unsloth 或 NVIDIA NeMo 进行定向微调。模型支持文本、图片和视频输入并生成文本输出,音频输入暂不支持。
国内开发者需要关注什么
对国内开发者而言,DiffusionGemma 最有吸引力的方向是本地低延迟体验。代码编辑器补全、桌面助手、离线文档处理、局域网知识库和交互式 Agent 都可能受益于更快的单用户输出速度。
但它并不是一款“同等质量下全面替代自回归模型”的产品。Google 公布的模型卡显示,DiffusionGemma 在多项知识、代码和视觉基准上的成绩低于标准 Gemma 4 26B A4B。选择模型时,需要在输出质量、峰值速度、硬件成本和并发规模之间权衡。
另一个现实问题是显存。量化后约 18GB 的部署门槛已经接近消费级显卡可用范围,但对普通笔记本和入门显卡仍不友好。更适合先在 RTX 4090、RTX 5090、工作站或云端 GPU 上测试。
DiffusionGemma 的意义在于,文本生成开始出现更成熟的非自回归工程路线。过去大模型体验优化主要依赖更强硬件、量化、投机解码和服务端批处理;Google 这次把文本扩散推到开放模型和主流推理框架中,让开发者可以直接验证并行生成是否适合自己的业务。
它的第一批用户很可能不是追求通用问答质量的普通用户,而是愿意为低延迟、本地运行和可定制性投入算力的开发者。对于实时编辑、代码补全和结构化生成工具,DiffusionGemma 提供了一条值得实际测试的新路径。