数字克隆人成真？谷歌正式推送 Gemini Avatar

发布于：2026年6月8日栏目：行业动态

摘要

谷歌正式推出 Gemini Avatar 功能，让付费订阅用户可以直接在本地生成个人 AI 分身（克隆人），包括物理外貌与嗓音模拟，应用于生成的 AI 视频中。本文解析这一“黑镜式”功能的实际体验，并探讨端侧多模态模型 Gemini Omni 在桌面端的未来落地空间。

上个月在谷歌 I/O 大会上宣布的一堆 Gemini 新功能中，最让人瞩目但也最让人感到一丝寒意的东西——Gemini Avatar（双子座分身），终于开始向广大用户推送了。

简单来说，Gemini Avatar 就是你个人的“AI数字克隆人”。它不仅能完美复刻你的外貌特征，甚至连你的说话语气、嗓音高低都能模拟得惟妙惟肖。你只需要给它提供一段提示词，它就能替你出现在各种 AI 生成的视频中。

欢迎来到 2026 年，数字分身正式成为现实。

2分钟，做出一款你的“数字分身”

把自己的虚拟形象拿去生成视频，听起来像是科幻美剧《黑镜》（Black Mirror）里才会出现的惊悚桥段。但现在，它就是一个你可以随时在手机上划拉两下就能开启的真实功能。

要使用 Gemini Avatar，门槛有两个：

1. 订阅谷歌的付费 AI 计划：无论是基础的 Google One AI Premium，还是企业版的 Gemini Business / Enterprise 均可。值得称赞的是，谷歌这次并没有把该功能独占给最贵的高端方案，而是让相对便宜的 AI Plus 订阅用户也能分到一杯羹。

2. 一段录制过程：在手机上的 Gemini App 里，按照向导看着镜头读出一串数字，然后保持视线直视，再把头缓缓向左、向右转动。整个采集过程只需短短 2 分钟，你的“数字分身”照片就会生成并保存在专属页面上。

录制完成后，你只需要在输入框里打出 `@me` 或者 `@你的名字`，再配上诸如“让我穿着印有公司 Logo 的 T 恤，在谷歌总部和安卓公仔们合影”这样的指令，Gemini 就会在后台自动调用 Gemini Omni 模型，生成一段极具真实感的克隆人视频。

从测试反馈来看，这个由 Gemini Omni（谷歌最新的多模态端侧模型）驱动的克隆分身效果非常惊人，AI 克隆人不仅眨眼、面部微表情十分自然，声音也和本人几乎无异，足以骗过大部分不熟悉 AI 的普通人。

独家洞察：虚拟人背后的“数字资产锁定”战略

虽然很多人觉得这个功能目前只是个“有趣的玩具”或“有点诡异的黑科技”，但在商业与安全的交汇处，谷歌下一盘更大的棋：

1. 虚拟化入口的争夺：未来的 AI Agent（智能体）不会仅仅是一个冰冷的聊天框。当你在网上开会、演讲、录制教程、甚至做自媒体客服时，你的“数字克隆人”就是你的交互界面。谷歌通过抢先建立 Avatar，是在争夺未来人机交互的第一视觉入口。

2. 安全的数字护城河：数字克隆人（Deepfake）最大的隐患在于欺诈和滥用。谷歌限制了必须使用 paid Google AI plan，且只能调用本人的形象。通过将安全采集、端侧运行（基于多模态 Omni 模型）以及谷歌账号深度绑定，谷歌实际上在为每个人建立一个“经过官方认证的安全数字分身托管库”。

3. 极度粘性的付费生态：一旦你在谷歌的生态里定制了自己的分身，积累了各种视频模板、语料以及个人专属的 AI 视频库，你就几乎不可能切换到 OpenAI 或 Anthropic 的阵营——因为你的“数字分身”被扣在了谷歌的手里。

虽然现在看起来端侧视频生成依然有一点点“AI感”，但随着算力的迭代，在本地运行这种级别的多模态克隆人视频，将会很快变得像发一条语音一样稀松平常。

人工智能谷歌 Gemini 虚拟分身

联合谷歌与英伟达：苹果最强自研大模型背后的“秘密同盟”

没有更多文章