在小米正式发布了MiMo-V2-Pro大模型以后,第一个出现在我脑子里的人不是雷军,而是马斯克。

因为他的xAI现在实在太尴尬了。2023年成立,融资超过500亿美元,联创团队更是涵盖了OpenAI、Deep Mind、微软以及谷歌大脑。

最新的Grok 4.20 Beta,还搞了个四agent并行的多智能体架构,通过Grok、Harper、Benjamin、Lucas这四个 agent内部辩论,提高输出答案。

结果呢?Grok 4.20 Beta在Artificial Analysis Intelligence Index上只拿了48分,反观雷军这边,小米的MiMo-V2-Pro则拿到了49分。

小米大模型Core团队第一次发布模型是在2025年4月30日,初代MiMo,参数量只有7B,属于是“玩具级”。

不过MiMo在数学推理和代码生成上打赢了OpenAI o1-mini,算是小米在AI赛道上的第一声响。

随后,小米用一个匿名代号“Hunter Alpha”悄悄上线OpenRouter,一周之内调用量自然增长到日榜第一、总量破1T tokens,全球开发者在不知道品牌的情况下用脚投票,然后小米公众号深夜发微信说“对,这是小米做的。”

论大模型,马斯克确实该拜雷军为师。

01

MiMo-V2-Pro 凭什么站上牌桌

在业务上,雷军比马斯克还晚启动了一年。

2023年4月雷军推动成立小米AI实验室大模型团队,栾剑担任首任负责人。只不过这个AI跟我们现在说的大语言模型、agent,并非一回事。

直到2024年底、2025年初,小米才成立了通用基础大模型相关的Core团队。

这个团队同样也是雷军亲自主导、亲自推动,并且对大模型业务投入不设上限。

如果只看架构层面,MiMo-V2-Pro并没有什么让人眼前一亮的东西。1T参数、42B激活参数、100万token上下文,这些放在今天都不稀奇。

MiMo-V2-Pro采用的MoE(混合专家)、混合注意力机制、MTP(多token预测),这些也都是大模型领域的通用技术方案,DeepSeek在用,谷歌也在用。

真正让这个模型区别于同行的,是后训练阶段的三项技术。

第一项是MOPD,全称Multi-Teacher On-Policy Distillation,多教师在线策略蒸馏。这是小米在MiMo-V2-Flash技术报告中首次提出的后训练范式。

要理解MOPD的价值,得先理解它要解决的问题。

大模型后训练有一个通病,俗名叫“跷跷板效应”。就是说你把数学能力练强了,代码能力就退化;你把agent能力拉上来,通用对话又变差。

这不是说某个团队的技术不够,这是整个产业都在面临的问题。

目前大家比较认可的对应方法有两种,第一种是训练多个领域专家模型,然后通过参数合并把它们糅在一起。不过这种方法的效果不是很理想。

另一种是让专家模型生成大量离线数据,再让学生模型去学,但这种方式存在严重的“分布偏移”问题。可是学生只学会了教师的答题方式,模型根本没有建立自己的思考方式,一旦遇到教师没覆盖的场景就会失灵。

MOPD的做法分三个阶段。第一阶段是通用 SFT,用高质量指令数据做基础微调,激活模型的指令跟随能力,这一步没什么特别的。

第二阶段是分别训练多个领域专家教师,比如说代码agent教师、搜索agent教师、数学推理教师、安全对齐教师,每个教师在自己的领域做到极致,不用管其他领域。

第三阶段是关键创新,让学生模型自己生成回答,然后同时接受多个教师的token级实时监督。学生从自身分布采样,接收自领域教师的KL散度奖励和可验证的结果奖励这两类信号,前者告诉模型“这个字应该怎么写”,后者告诉模型“最终答案对不对”。

小米公布的数据显示,经过MOPD训练的学生模型在AIME 2025数学竞赛上达到94.1分,不仅保住了最强数学教师的水平,在部分项目上甚至超越了教师本身。

第二项是真实环境的agentic RL训练。

尽管说现在大模型都会强调自己的agent能力如何如何,但是绝大多数模型在强化学习过程中,都是非agent相关的。

模型看一道题,输出一个答案,对完答案给个奖励,整个过程是单轮的、封闭的。

现实世界的任务可不是这样运作的。一个真正的agent需要读代码、改bug、跑测试、看报错、再改、再跑,这是一个包含了多种情况的完整过程。

小米为此构建了一套覆盖四大类场景、总计超过12万个真实交互环境的agent训练体系。

代码agent的训练数据从真实GitHub Issues中提取,模型需要在agent循环中读文件、改代码、跑命令、看测试结果,奖励来自可验证的单元测试。

终端agent从Stack Overflow和Stack Exchange中筛选需要高级技术专长的问题,转化为带有完整Docker环境和测试用例的计算任务。

网页开发agent用Playwright执行生成代码并录制视频,再用多模态视觉判别器评估质量——用视频而非静态截图来评估,因为视频能捕捉交互动画和响应式布局等动态特性。

通用agent覆盖搜索和函数调用两个方向。

其结果就是,在多样化agent 环境中增加强化学习计算量,收益会泛化到数学推理、通用推理等其他任务。也就是说,agent训练培养的不是某个特定技能,而是一种通用的问题解决能力。

别的大模型是在教室里做卷子,MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习,做错了有真实的测试结果告诉你哪里错了。

实习锻炼出来的模型,比做卷子练出来的,更懂得如何处理问题。

第三项是ARL-Tangram,这是小米与北京大学计算机学院联合研发的Agent RL训练基础设施系统,也是罗福莉作为通讯作者所参与的研究。

MOPD和Agentic RL解决的是“怎么训练”的问题,ARL-Tangram解决的是“用什么训练”的问题。

agent需要频繁调用外部资源,代码执行需要CPU,奖励模型需要GPU,网页搜索需要API配额。 传统的RL框架,它的做法是静态资源预留,给每条训练轨迹分配一套固定资源,从头占到尾。

这就导致说即便没有任务,这条通道也被占用,别人想走也走不了。

ARL-Tangram的实测数据显示,在AI编程任务中,外部资源平均只有47%的时间在被使用,剩下53%完全闲置。

在MOPD训练场景中更夸张,12个教师模型各自占着一组GPU提供奖励服务,但这些GPU的平均流式多处理器活跃率不到3%,相当于97%的算力在空转。

ARL-Tangram继承了小米性价比之王的基因,它的核心思路就是细化资源管理,让每一份算力都跑得更有价值。

每次外部调用被视为一个原子动作,动作结束后资源立即释放,供其他轨迹使用。

实测效果:动作完成时间提升最高4.3倍,RL训练步骤时间加速最高1.5 倍,外部资源消耗降低71.2%。

同样的硬件投入,能支撑多得多的训练量。

雷军在V2-Pro发布当天的微博里写了一句话:“我们在 AI 领域上相对比较低调,实际进展可能比大家看到的要快很多。”

确实,小米在AI上的进展,远远超过了我的认知。

02

MiMo-V2-Pro对小米意味着什么

MiMo-V2-Pro出现之前,小米在软件和AI领域的技术存在感很低。

提到智能驾驶,人们想到的是特斯拉、华为、小鹏;提到大模型,是字节、阿里、腾讯。小米的标签始终是“硬件性价比之王”,雷军的手机、IoT 设备、汽车,都是硬件叙事。

诚然,这个标签帮小米卖出了很多产品,但也把它牢牢钉在了“组装厂”的认知框架里。

雷军自己也清楚这一点。

2023年年度演讲上,他提出了一个新公式:“(软件×硬件)^AI”,宣布小米未来五年研发投入超过1000亿元,重点攻坚芯片、AI和操作系统。

这个公式当时听起来以为雷军是说着玩玩的,结果人家这回来真的。

MiMo-V2-Pro的诞生,第一次让小米在纯技术维度上获得了一个全球级的排名。

Artificial Analysis Intelligence Index全球前十,中国第二。

事实上,我觉得只要能在全球大模型排行榜上占有一席之地,都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。

至少当雷军说“小米是一家AI公司”的时候,能拿出这样一个成果来支撑观点。

但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。

小米汽车的智能驾驶团队在2026年3月刚刚完成组织架构调整,将“感知”和“规控”两个部门合并为“端到端算法与功能部”,全面转向端到端大模型技术路线,目标年内实现端到端智驾交付。

与此同时,小米早在2025年11月就发布了MiMo-Embodied,同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。

所以MiMo-V2-Pro的这些成绩,说白了那都是给小米汽车打的广告。

MiMo-V2-Pro本身作为1T参数的云端模型,显然无法直接部署到车端,没有哪块车载芯片跑得动这个体量。

但小米的布局逻辑是“云-边-端”协同:云端用V2-Pro级别的大模型做训练、仿真和复杂决策,端侧用压缩后的轻量模型做实时推理。

MiMo-V2-Pro的价值不在于直接上车,而在于作为“教师模型”,通过前面提到的MOPD,将V2-Pro的能力蒸馏到端侧小模型中。

马斯克这边,情况就微妙多了。

Grok在2025年底的一次Holiday Update正式住进了特斯拉的车机里,然而它却只能设导航目、聊聊天,相当于是一个语音助手,它跟FSD之间只有导航链路的浅层联动。

与此同时,特斯拉本身车内控制座舱的AI,是来自于特斯拉自己的,跟xAI关系不大。

2026年3月,马斯克宣布了一个叫“Digital Optimus”的联合项目,说是要让Grok充当“高层推理大脑”。

他用了卡尼曼的双系统理论来类比,Grok是慢思考的System 2,特斯拉AI是快反应的System 1,也就是实时感知和动作执行。

然而仅凭马斯克的想法,我认为它们之间的协同远没有小米“云端大模型蒸馏到车端小模型”这条路径来得清晰。

03

我给MiMo-V2-Pro挑刺

本文并不是小米的软文,我只是一个AI产业的观察者,所以我在这部分准备给小米挑挑刺,以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%,接近Claude 4.6 Sonnet的79.6%,这是一份关于AI编程的测试集,MiMo-V2-Pro的数字也确实好看。

但这里有一个行业内已经公开的秘密,SWE-bench Verified这个测试集本身已经不再可靠。

OpenAI的Frontier Evals团队在2026年2月23日明确表示,SWE-bench Verified“实际上已经饱和且高度被污染”,并且建议行业转向更难的SWE-bench Pro。

OpenAI的研究人员发现,包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型,仅凭 SWE-bench Verified的Task ID就能复述出原始的gold patch,这就相当于你考试的时候,不用看题目,只看题目的编号就能给出答案。

这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分,说服力大打折扣。

MiMo-V2-Pro没有公布SWE-bench Pro的成绩。这个更难、更抗污染的版本才是2026年衡量编码能力的真正标尺。

作为参考,目前SWE-bench Pro上表现最好的模型是OpenAI GPT-5.4,得分仅为57.7%,与SWE-bench Verified上动辄70%以上的成绩形成鲜明对比。

不止SWE-bench Pro。

MiMo-V2-Pro还缺席了另外几个关键的新一代测试集:ARC-AGI-2,专门测试推理泛化能力,纯LLM得分为1%,最佳推理系统仅54%,人类平均60%;Frontier Math,前沿数学推理;LiveCodeBench v6,按月更新的编程评测,几乎不可能被训练数据污染。

一个模型选择公布哪些benchmark、不公布哪些benchmark,本身就是一种信息筛选。

还有一个容易被忽略的问题:MiMo-V2-Flash是MIT开源的,但MiMo-V2-Pro的权重并未开源。

罗福莉在发布声明中说“会开源——当模型足够稳定值得开源的时候”,但在那之前,说明V2-Pro的性能还不够稳定。

雷军说“我们模型刚刚完成,未来一段时间,还会快速迭代增强”。这句话既是承诺,也是对现状的坦率承认。

MiMo-V2-Pro确实还有不少短板需要补。

它是小米从“硬件公司”到“AI公司”叙事转型中最重要的一块拼图,但这块拼图能否真正嵌入小米的商业版图,而不只是挂在墙上供人观赏,还需要时间来回答。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8rd5CDfbtzT