6月9号,小米MiMo团队联合一家叫TileRT的公司,发布了MiMo-V2.5-Pro的UltraSpeed模式。简单说就是把一个万亿参数的大模型塞进8张通用GPU,生成速度干到了1000 tokens/s以上,峰值接近1200。
我第一反应是:假的吧,万亿参数这显存塞的下么, 还有运行时的KV Cache等数据了。
然后仔细网上搜了一下技术细节,发现这事儿貌似可能大概行得通吧。
先聊聊MiMo-V2.5-Pro是个啥
不搞AI的朋友可能没听过MiMo,但小米这个模型其实今年4月就开源了,用的MIT协议,随便商用。1.02万亿总参数,42B活跃参数,MoE架构——也就是说看着参数吓人,但每次推理只用一小部分,效率其实很高。
性能方面,SWE-bench Pro拿了57.2%。这个榜单衡量的是AI能不能真的解决GitHub上的代码bug,不是那种"写个Hello World"的玩具题。对比一下:Claude Opus 4.6是53.4%,GPT-5.4是57.7%。对,MiMo在这个项目上跟GPT-5.4基本持平,还超过了Claude。
数据方面挺不错的,但实际使用中偶尔输出中断、出现幻觉、“变傻”等情况,这个只有用过的人心里有数。今天我们不聊它聪不聪明,实际干活质量怎么样,这些是可以继续训练优化的,主要聊聊它把一个万亿参数的大模型塞进8张通用GPU跑出1000 tokens/s的事。
UltraSpeed到底干了啥
MiMo-V2.5-Pro标准模式大概100 tokens/s,UltraSpeed直接干到1000+,提升10倍。靠三个东西:
FP4量化。万亿参数全用FP16存,光权重就2TB显存,8张卡根本塞不下。但MoE架构有个好处——Expert层占了绝大部分参数,而且对量化精度容忍度高。所以小米只对Expert层做FP4量化,其他模块不动。结果就是体积砍了一大截,能力基本没掉。
DFlash投机解码。传统解码是一个token一个token往外蹦,慢。DFlash搞了个轻量模型一次猜一整块token,大模型再批量验证。coding场景下平均接受长度6.3,最高7.1——也就是说小模型猜6-7个token,大模型一次过。这在代码补全这种"重复性高"的场景下效果特别好。
TileRT推理引擎。这个是系统层面的优化,持久化内核让计算流水线常驻GPU内部,不再每个算子都启动一遍;异构流水线把通信、搬运、计算拆开让不同线程束协作。说白了就是把GPU的性能榨到极限,一滴都不浪费。
三者叠在一起,效果就是:8张通用GPU,跑出1000+ tokens/s。
这速度什么水平
这个得展开说说。
GPT-4o大概80-120 tokens/s,Claude Opus 4.6大概50-100,DeepSeek-V4标准模式也差不多。MiMo-V2.5-Pro-UltraSpeed直接翻了将近10倍。
但关键不是"快了多少",而是"什么级别的模型跑这么快"。以前能跑这么快的,要么是7B、14B这种小模型,要么是用Cerebras晶圆级芯片或者Groq定制芯片。那些专用硬件一套下来几百万起步,大公司才玩得起。
MiMo这次用的是标准8卡通用GPU节点——就是京东能买到的那种。
真正的意义在哪
我觉得这事儿的亮点不在benchmark,而在于它证明了一件事:万亿参数模型可以在通用硬件上以实用速度运行。
以前的认知是,大模型的速度和规模是矛盾的——要大就不能快,要快就不能大。MoE解决了"大但不贵"的问题,UltraSpeed解决了"大但不慢"的问题。
实际应用场景上:
速度即智能。同样等10秒,以前模型只能走一条推理路径,现在能走100条,选最优结果。这就像做数学题,以前只能用一种方法算,现在给你100种方法同时算,准确率自然上去了。Best-of-N搜索在推理增强里就是这个逻辑。
实时交互闭环。1000 tokens/s意味着一个500字的回答0.5秒出完。以前很多场景不敢用大模型就是因为它慢——高频量化交易要毫秒级响应,实时反欺诈要瞬时决策,手术辅助要秒级反馈。现在这个速度级别,这些场景都可以认真考虑了。
私有化部署门槛大幅降低。数据不出门、延迟可控、成本可预期。对医疗、金融、政务这些隐私敏感行业来说,可能才是真正意义上的拐点。不用再把核心数据交给云端API了。
不过也别太嗨
说几句泼冷水的话:
- 申请制限时开放,只到6月23日,名额有限,优先企业用户。普通人想体验得排队。
- 不支持Token Plan,只能按API调用。基础版输出6元/百万Token,UltraSpeed是18元/百万Token,3倍价格。官方说法是"3倍价格提升,10倍输出体验"——数学上确实划算,但绝对值不低。
- FP4量化有代价。官方说"基本持平",但极端场景下的精度损失谁也不敢打包票。你得拿自己的业务数据测。
- 通用能力不是很强。用过Mimo 2.5 Pro的人,有人说便宜好用,也有人说太傻经常出问题。能不能实际用到自己的生产线上只能亲自试过才知道。
写在最后
小米这次做的事情,本质上是在软件层面把通用硬件的性能榨到了极限。没有去造专用芯片,而是在量化、解码、执行引擎三个维度做协同优化。
这种"模型-系统协同"的思路,对行业的示范意义可能比benchmark数字更大。它告诉所有做AI的团队:别只盯着模型架构创新,推理系统优化同样有巨大的空间。
万亿参数模型在8张通用GPU上跑出1000 tokens/s——这件事本身就是一个信号:AI的基础设施正在从"少数人的特权"变成"多数人的工具"。
评论区