中国大模型API调用量蝉联全球第一：DeepSeek霸榜与小米发布万亿参数MiMo

算力性价比之王：中国大模型周调用量连续6周超越美国，DeepSeek与小米MiMo强势霸榜

发布于：2026年6月9日栏目：行业动态

摘要

全球开发者API网关平台OpenRouter最新发布的数据显示，在2026年6月的第一周（6月1日至7日），全球AI大模型总调用量达到了创纪录的36.1万亿Token，环比大增13.5%。令人瞩目的是，以DeepSeek为代表的中国大模型周调用量达到14.19万亿Token，连续第六周超越美国模型总和。与此同时，DeepSeek-V4-Flash大模型连续第三周蝉联全球最受欢迎模型榜首。此外，小米也于近日发布了其自研的万亿参数（1-Trillion Parameter）大模型“MiMo”，推理速度达到了每秒1000 tokens，再次刷新行业工程化极限。

全球生成式人工智能（Generative AI）的商业化落地，正在从“模型参数军备竞赛”全面转向“API消耗量与性价比博弈”。在这场算力应用深水区的角逐中，中国AI企业展现出了惊人的爆发力与生态粘性。

根据全球主流开发者AI模型网关OpenRouter最新发布的周度数据统计，2026年6月1日至7日，全球开发者通过该平台调用的AI大模型总流量达到了36.1万亿Token（环比增长13.5%）。其中，中国大模型周调用量达到了14.19万亿Token，占全球总量的近四成，连续第六周在模型调用规模上超越美国大模型总和。

在这场API消耗的洪流中，中国明星AI初创公司深度求索（DeepSeek）旗下最新轻量推理大模型DeepSeek-V4-Flash表现抢眼，单周处理流量达到3.69万亿Token，连续第三周蝉联OpenRouter全球最受欢迎大模型首位。

连续6周超越美国：中国AI在API市场的性价比突围

中国大模型API调用量之所以能够长期压制美国巨头（如OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet等），其核心秘诀在于极致的性价比（Price-to-Performance Ratio）与工程化优势。

在OpenRouter平台上，世界各地的数万名独立开发者、初创企业和SaaS服务商是主要的买单者。对于他们而言，高昂的API调用成本是阻碍AI功能大规模落地的最大痛点。而中国厂商如DeepSeek、智谱AI、零一万物等，通过自研的混合专家架构（MoE，Mixture of Experts）和先进的激活量剪枝技术，将高阶推理大模型的API价格压低至美国同等水平模型的十分之一甚至数十分之一。

以连续霸榜的DeepSeek-V4-Flash为例，它能够在极低的延迟下提供极高水准的代码生成、结构化数据提取和日常对话处理。这种“高品质、超低单价”的降维打击，直接促使全球开发者在后台将默认网关从GPT-3.5/GPT-4o转向了中国厂商的端点，引发了流量占比的剪刀差。

神秘“Hunter Alpha”疑云：DeepSeek-V4的隐秘测试

除了API调用量的狂飙，近日在OpenRouter平台上悄然上线的一个匿名模型“Hunter Alpha”也在技术圈掀起了 Speculation 风暴。

该模型自3月11日上线以来，在没有进行任何官方宣传和商业推广的情况下，短短几天内已疯狂处理了超过160亿个Token。根据多家海外媒体和技术专家的评测：

数据特征匹配： 当被问及身份和训练数据时，Hunter Alpha 自称为“中文AI大模型”，其知识截止日期为2025年5月——这与DeepSeek目前的最新主力模型完全一致。

参数规模匹配： Hunter Alpha 在平台注册的信息为“万亿参数级（1-Trillion Parameters）大模型”，并支持高达100万Token的超长上下文窗口（Context Window），这与中国科技媒体爆料的DeepSeek即将于今年春季末期正式发布的“DeepSeek-V4”旗舰版参数几乎完全吻合。

推理逻辑一致： 许多AI工程师在对比其思维链（Chain of Thought）的输出逻辑和排版习惯后，坚信这就是DeepSeek-V4在发布前的“隐秘压力测试”（Stealth run）。

虽然DeepSeek官方及OpenRouter平台均拒绝就此发表评论，但这股热潮再次证明了全球开发者对于中国下一代旗舰模型的极高期待。

小米MiMo亮相：万亿参数大模型的“千字每秒”极限

在中国AI模型生态整体高歌猛进的背景下，硬件科技巨头小米（Xiaomi）也抛出了一枚震撼弹——正式发布其首个自研万亿级参数大模型“MiMo”。

与行业中许多仅停留在纸面上的万亿模型不同，小米MiMo大模型在软硬件一体化系统工程上取得了颠覆性突破。得益于小米自研的“MiMo-Tensor”异构计算框架以及端云混合的高速缓存对齐技术，MiMo模型在云端服务器上的推理吞吐速度达到了每秒1000 tokens（1000 tokens/s）。

这是什么概念？相当于一秒钟内，该模型就能产出近千字的结构化文章或复杂的完整代码段，比目前行业主流的旗舰级大模型快了近十倍。

小米表示，MiMo大模型的开发初衷是为了彻底打通其“人车家全生态”（手机、澎湃OS、SU7智能汽车、智能家居）的底层智能系统级Agent交互。每秒1000 tokens的超高推理速率，使得车载智能助手、全屋语音中枢能够在毫无感知延迟的情况下处理复杂的多模态人机交互。

从DeepSeek API的全球流量称霸，到小米MiMo在端云协同吞吐效率上的突破，中国人工智能产业正在探索出一条极具自身特色、以“高效率、低成本、高并发、强应用”为核心的第二条AI崛起之路。

中国大模型 DeepSeek-V4 小米MiMo OpenRouter Token调用量算力性价比混合专家模型MoE 科技全球化

行业动态

算力性价比之王：中国大模型周调用量连续6周超越美国，DeepSeek与小米MiMo强势霸榜

摘要

连续6周超越美国：中国AI在API市场的性价比突围

神秘“Hunter Alpha”疑云：DeepSeek-V4的隐秘测试

小米MiMo亮相：万亿参数大模型的“千字每秒”极限

打破台积电垄断：英特尔夺得谷歌300万颗自研AI芯片订单，股价大涨11%

联合谷歌与英伟达：苹果最强自研大模型背后的“秘密同盟”