Google DiffusionGemma 解析:文本扩散模型为何值得关注
摘要
DiffusionGemma 把扩散生成思路用于文本模型,重点在并行生成和推理速度。它提供了不同于自回归大模型的技术路线,但真实效果仍要看任务质量、硬件条件和生态支持。
Google DeepMind于2026年6月10日发布实验性开放模型 DiffusionGemma。与常见大语言模型逐 token预测下一个词的方式不同,DiffusionGemma引入离散文本扩散机制,通过并行去噪生成文本块,希望在本地交互式 AI场景中降低等待时间。

AI 算力与模型能力抽象视觉,来源:DGNEWLIVE 媒体库
它代表的是另一种生成路线
传统大语言模型通常按 token一个接一个生成,文本扩散模型则尝试用更并行的方式逐步修正文段。通俗地说,它不是一路往后写,而是先形成粗稿,再迭代接近目标文本。
这条路线的优势需要放在具体条件下看。速度数字通常依赖硬件、批处理、序列长度和任务类型,不能直接等同于所有应用都会更快。
Google将它定位为研究与开发用途的开放模型,而不是直接替代标准 Gemma 4的通用生产方案。官方明确表示,DiffusionGemma优先考虑生成速度和并行布局能力;追求最高输出质量的应用,仍应优先选择标准 Gemma 4。
从逐 token生成转向256-token并行画布
传统自回归模型需要按照顺序不断读取模型权重,并逐个生成 token。在单用户本地推理场景中,这种模式容易受到显存带宽限制,GPU的并行计算能力无法完全利用。

AI 模型与数字界面概念图,来源:DGNEWLIVE 媒体库
DiffusionGemma的思路是先初始化一个包含随机占位 token的画布,再通过多轮去噪逐步修正内容。每个画布长度为256 token,模型可以在一次前向计算中同时处理多个位置。对于超过256 token的长文本,系统会将已经完成去噪的文本块写入 KV Cache,再继续处理下一块内容。
这种设计保留了长文本生成所需的顺序稳定性,也让单个文本块可以利用双向注意力机制。画布中的 token能够相互参考,模型可以在后续去噪步骤中修正先前位置的错误。
参数规模与速度表现
DiffusionGemma基于 Gemma 4的 MoE架构。Google对外通常使用“26B”这一口径,模型卡给出的精确数据为总参数25.2B、推理激活参数3.8B。模型支持最长256K token上下文,画布长度为256 token。
Google公布的测试结果显示,DiffusionGemma在专用 GPU上可获得最高约4倍输出加速:
- 单张 NVIDIA H100上可超过1000 tokens/s;
- NVIDIA GeForce RTX 5090上可超过700 tokens/s;
- 量化后可在约18GB显存范围内部署,面向高端消费级显卡的本地推理实验。
模型卡还给出低批量场景下超过1100 tokens/s的 H100 FP8数据。不同硬件、精度格式、采样设置和任务复杂度都会影响最终速度,实际部署时不能只比较峰值数字。

代码编辑器与终端界面,来源:DGNEWLIVE 媒体库
更适合低延迟交互和非线性文本任务
DiffusionGemma的优势不只是“打字更快”。双向注意力和迭代修正机制让它更适合处理需要全局约束的任务,例如代码补全、行内编辑、结构化布局、数学图结构和氨基酸序列生成。
Google在开发者指南中展示了数独微调案例。基础模型并未专门训练数独求解,成功率接近0%;使用官方提供的 JAX SFT配方进行适配后,成功率提升到80%,推理步骤也明显减少。这个案例说明,文本扩散模型在需要反复校正多个位置的任务中,可能比严格从左到右生成更有发挥空间。
开放权重、Apache 2.0许可,已支持 vLLM
DiffusionGemma权重已经发布到 Hugging Face,并采用 Apache 2.0许可。Google也与 vLLM团队完成适配,开发者可以通过 vLLM的 OpenAI兼容本地服务接口运行模型。
Google还提供官方训练配方,开发者可结合 Hackable Diffusion、Unsloth或 NVIDIA NeMo进行定向微调。模型支持文本、图片和视频输入并生成文本输出,音频输入暂不支持。
不确定性与后续变量
对国内开发者而言,DiffusionGemma最有吸引力的方向是本地低延迟体验。代码编辑器补全、桌面助手、离线文档处理、局域网知识库和交互式 Agent都可能受益于更快的单用户输出速度。
但它并不是一款“同等质量下全面替代自回归模型”的产品。Google公布的模型卡显示,DiffusionGemma在多项知识、代码和视觉基准上的成绩低于标准 Gemma 4 26B A4B。选择模型时,需要在输出质量、峰值速度、硬件成本和并发规模之间权衡。
另一个现实问题是显存。量化后约18GB的部署门槛已经接近消费级显卡可用范围,但对普通笔记本和入门显卡仍不友好。更适合先在 RTX 4090、RTX 5090、工作站或云端 GPU上测试。
DiffusionGemma的意义在于,文本生成开始出现更成熟的非自回归工程路线。过去大模型体验优化主要依赖更强硬件、量化、投机解码和服务端批处理;Google这次把文本扩散推到开放模型和主流推理框架中,让开发者可以直接验证并行生成是否适合自己的业务。
它的第一批用户很可能不是追求通用问答质量的普通用户,而是愿意为低延迟、本地运行和可定制性投入算力的开发者。对于实时编辑、代码补全和结构化生成工具,DiffusionGemma提供了一条值得实际测试的新路径。