小米今天整了个大活：万亿参数模型在普通显卡上跑出1000 tokens/s-过客

6月9号，小米MiMo团队联合一家叫TileRT的公司，发布了MiMo-V2.5-Pro的UltraSpeed模式。简单说就是把一个万亿参数的大模型塞进8张通用GPU，生成速度干到了1000 tokens/s以上，峰值接近1200。

我第一反应是：假的吧，万亿参数这显存塞的下么，还有运行时的KV Cache等数据了。

然后仔细网上搜了一下技术细节，发现这事儿貌似可能大概行得通吧。

先聊聊MiMo-V2.5-Pro是个啥

不搞AI的朋友可能没听过MiMo，但小米这个模型其实今年4月就开源了，用的MIT协议，随便商用。1.02万亿总参数，42B活跃参数，MoE架构——也就是说看着参数吓人，但每次推理只用一小部分，效率其实很高。

性能方面，SWE-bench Pro拿了57.2%。这个榜单衡量的是AI能不能真的解决GitHub上的代码bug，不是那种"写个Hello World"的玩具题。对比一下：Claude Opus 4.6是53.4%，GPT-5.4是57.7%。对，MiMo在这个项目上跟GPT-5.4基本持平，还超过了Claude。

数据方面挺不错的，但实际使用中偶尔输出中断、出现幻觉、“变傻”等情况，这个只有用过的人心里有数。今天我们不聊它聪不聪明，实际干活质量怎么样，这些是可以继续训练优化的，主要聊聊它把一个万亿参数的大模型塞进8张通用GPU跑出1000 tokens/s的事。

UltraSpeed到底干了啥

MiMo-V2.5-Pro标准模式大概100 tokens/s，UltraSpeed直接干到1000+，提升10倍。靠三个东西：

FP4量化。万亿参数全用FP16存，光权重就2TB显存，8张卡根本塞不下。但MoE架构有个好处——Expert层占了绝大部分参数，而且对量化精度容忍度高。所以小米只对Expert层做FP4量化，其他模块不动。结果就是体积砍了一大截，能力基本没掉。

DFlash投机解码。传统解码是一个token一个token往外蹦，慢。DFlash搞了个轻量模型一次猜一整块token，大模型再批量验证。coding场景下平均接受长度6.3，最高7.1——也就是说小模型猜6-7个token，大模型一次过。这在代码补全这种"重复性高"的场景下效果特别好。

TileRT推理引擎。这个是系统层面的优化，持久化内核让计算流水线常驻GPU内部，不再每个算子都启动一遍；异构流水线把通信、搬运、计算拆开让不同线程束协作。说白了就是把GPU的性能榨到极限，一滴都不浪费。

三者叠在一起，效果就是：8张通用GPU，跑出1000+ tokens/s。

这速度什么水平

这个得展开说说。

GPT-4o大概80-120 tokens/s，Claude Opus 4.6大概50-100，DeepSeek-V4标准模式也差不多。MiMo-V2.5-Pro-UltraSpeed直接翻了将近10倍。

但关键不是"快了多少"，而是"什么级别的模型跑这么快"。以前能跑这么快的，要么是7B、14B这种小模型，要么是用Cerebras晶圆级芯片或者Groq定制芯片。那些专用硬件一套下来几百万起步，大公司才玩得起。

MiMo这次用的是标准8卡通用GPU节点——就是京东能买到的那种。

真正的意义在哪

我觉得这事儿的亮点不在benchmark，而在于它证明了一件事：万亿参数模型可以在通用硬件上以实用速度运行。

以前的认知是，大模型的速度和规模是矛盾的——要大就不能快，要快就不能大。MoE解决了"大但不贵"的问题，UltraSpeed解决了"大但不慢"的问题。

实际应用场景上：

速度即智能。同样等10秒，以前模型只能走一条推理路径，现在能走100条，选最优结果。这就像做数学题，以前只能用一种方法算，现在给你100种方法同时算，准确率自然上去了。Best-of-N搜索在推理增强里就是这个逻辑。

实时交互闭环。1000 tokens/s意味着一个500字的回答0.5秒出完。以前很多场景不敢用大模型就是因为它慢——高频量化交易要毫秒级响应，实时反欺诈要瞬时决策，手术辅助要秒级反馈。现在这个速度级别，这些场景都可以认真考虑了。

私有化部署门槛大幅降低。数据不出门、延迟可控、成本可预期。对医疗、金融、政务这些隐私敏感行业来说，可能才是真正意义上的拐点。不用再把核心数据交给云端API了。

不过也别太嗨

说几句泼冷水的话：

申请制限时开放，只到6月23日，名额有限，优先企业用户。普通人想体验得排队。
不支持Token Plan，只能按API调用。基础版输出6元/百万Token，UltraSpeed是18元/百万Token，3倍价格。官方说法是"3倍价格提升，10倍输出体验"——数学上确实划算，但绝对值不低。
FP4量化有代价。官方说"基本持平"，但极端场景下的精度损失谁也不敢打包票。你得拿自己的业务数据测。
通用能力不是很强。用过Mimo 2.5 Pro的人，有人说便宜好用，也有人说太傻经常出问题。能不能实际用到自己的生产线上只能亲自试过才知道。

写在最后

小米这次做的事情，本质上是在软件层面把通用硬件的性能榨到了极限。没有去造专用芯片，而是在量化、解码、执行引擎三个维度做协同优化。

这种"模型-系统协同"的思路，对行业的示范意义可能比benchmark数字更大。它告诉所有做AI的团队：别只盯着模型架构创新，推理系统优化同样有巨大的空间。

万亿参数模型在8张通用GPU上跑出1000 tokens/s——这件事本身就是一个信号：AI的基础设施正在从"少数人的特权"变成"多数人的工具"。

目录CONTENT

小米今天整了个大活：万亿参数模型在普通显卡上跑出1000 tokens/s