Google DiffusionGemma 解析：文本扩散、并行生成与速度边界

Google DiffusionGemma 解析：文本扩散模型为何值得关注

发布于：2026年6月11日栏目：行业动态

DiffusionGemma 把扩散生成思路用于文本模型，重点在并行生成和推理速度。它提供了不同于自回归大模型的技术路线，但真实效果仍要看任务质量、硬件条件和生态支持。

Google DeepMind于2026年6月10日发布实验性开放模型 DiffusionGemma。与常见大语言模型逐 token预测下一个词的方式不同，DiffusionGemma引入离散文本扩散机制，通过并行去噪生成文本块，希望在本地交互式 AI场景中降低等待时间。

传统大语言模型通常按 token一个接一个生成，文本扩散模型则尝试用更并行的方式逐步修正文段。通俗地说，它不是一路往后写，而是先形成粗稿，再迭代接近目标文本。

这条路线的优势需要放在具体条件下看。速度数字通常依赖硬件、批处理、序列长度和任务类型，不能直接等同于所有应用都会更快。

Google将它定位为研究与开发用途的开放模型，而不是直接替代标准 Gemma 4的通用生产方案。官方明确表示，DiffusionGemma优先考虑生成速度和并行布局能力；追求最高输出质量的应用，仍应优先选择标准 Gemma 4。

传统自回归模型需要按照顺序不断读取模型权重，并逐个生成 token。在单用户本地推理场景中，这种模式容易受到显存带宽限制，GPU的并行计算能力无法完全利用。

DiffusionGemma的思路是先初始化一个包含随机占位 token的画布，再通过多轮去噪逐步修正内容。每个画布长度为256 token，模型可以在一次前向计算中同时处理多个位置。对于超过256 token的长文本，系统会将已经完成去噪的文本块写入 KV Cache，再继续处理下一块内容。

这种设计保留了长文本生成所需的顺序稳定性，也让单个文本块可以利用双向注意力机制。画布中的 token能够相互参考，模型可以在后续去噪步骤中修正先前位置的错误。

DiffusionGemma基于 Gemma 4的 MoE架构。Google对外通常使用“26B”这一口径，模型卡给出的精确数据为总参数25.2B、推理激活参数3.8B。模型支持最长256K token上下文，画布长度为256 token。

Google公布的测试结果显示，DiffusionGemma在专用 GPU上可获得最高约4倍输出加速：

模型卡还给出低批量场景下超过1100 tokens/s的 H100 FP8数据。不同硬件、精度格式、采样设置和任务复杂度都会影响最终速度，实际部署时不能只比较峰值数字。

DiffusionGemma的优势不只是“打字更快”。双向注意力和迭代修正机制让它更适合处理需要全局约束的任务，例如代码补全、行内编辑、结构化布局、数学图结构和氨基酸序列生成。

Google在开发者指南中展示了数独微调案例。基础模型并未专门训练数独求解，成功率接近0%；使用官方提供的 JAX SFT配方进行适配后，成功率提升到80%，推理步骤也明显减少。这个案例说明，文本扩散模型在需要反复校正多个位置的任务中，可能比严格从左到右生成更有发挥空间。

DiffusionGemma权重已经发布到 Hugging Face，并采用 Apache 2.0许可。Google也与 vLLM团队完成适配，开发者可以通过 vLLM的 OpenAI兼容本地服务接口运行模型。

Google还提供官方训练配方，开发者可结合 Hackable Diffusion、Unsloth或 NVIDIA NeMo进行定向微调。模型支持文本、图片和视频输入并生成文本输出，音频输入暂不支持。

对国内开发者而言，DiffusionGemma最有吸引力的方向是本地低延迟体验。代码编辑器补全、桌面助手、离线文档处理、局域网知识库和交互式 Agent都可能受益于更快的单用户输出速度。

但它并不是一款“同等质量下全面替代自回归模型”的产品。Google公布的模型卡显示，DiffusionGemma在多项知识、代码和视觉基准上的成绩低于标准 Gemma 4 26B A4B。选择模型时，需要在输出质量、峰值速度、硬件成本和并发规模之间权衡。

另一个现实问题是显存。量化后约18GB的部署门槛已经接近消费级显卡可用范围，但对普通笔记本和入门显卡仍不友好。更适合先在 RTX 4090、RTX 5090、工作站或云端 GPU上测试。

DiffusionGemma的意义在于，文本生成开始出现更成熟的非自回归工程路线。过去大模型体验优化主要依赖更强硬件、量化、投机解码和服务端批处理；Google这次把文本扩散推到开放模型和主流推理框架中，让开发者可以直接验证并行生成是否适合自己的业务。

它的第一批用户很可能不是追求通用问答质量的普通用户，而是愿意为低延迟、本地运行和可定制性投入算力的开发者。对于实时编辑、代码补全和结构化生成工具，DiffusionGemma提供了一条值得实际测试的新路径。