在大模型这件事上，雷军居然给马斯克打样了

在小米正式发布了MiMo-V2-Pro大模型以后，第一个出现在我脑子里的人不是雷军，而是马斯克。

因为他的xAI现在实在太尴尬了。2023年成立，融资超过500亿美元，联创团队更是涵盖了OpenAI、Deep Mind、微软以及谷歌大脑。

最新的Grok 4.20 Beta，还搞了个四agent并行的多智能体架构，通过Grok、Harper、Benjamin、Lucas这四个 agent内部辩论，提高输出答案。

结果呢？Grok 4.20 Beta在Artificial Analysis Intelligence Index上只拿了48分，反观雷军这边，小米的MiMo-V2-Pro则拿到了49分。

小米大模型Core团队第一次发布模型是在2025年4月30日，初代MiMo，参数量只有7B，属于是“玩具级”。

不过MiMo在数学推理和代码生成上打赢了OpenAI o1-mini，算是小米在AI赛道上的第一声响。

随后，小米用一个匿名代号“Hunter Alpha”悄悄上线OpenRouter，一周之内调用量自然增长到日榜第一、总量破1T tokens，全球开发者在不知道品牌的情况下用脚投票，然后小米公众号深夜发微信说“对，这是小米做的。”

论大模型，马斯克确实该拜雷军为师。

MiMo-V2-Pro 凭什么站上牌桌

在业务上，雷军比马斯克还晚启动了一年。

2023年4月雷军推动成立小米AI实验室大模型团队，栾剑担任首任负责人。只不过这个AI跟我们现在说的大语言模型、agent，并非一回事。

直到2024年底、2025年初，小米才成立了通用基础大模型相关的Core团队。

这个团队同样也是雷军亲自主导、亲自推动，并且对大模型业务投入不设上限。

如果只看架构层面，MiMo-V2-Pro并没有什么让人眼前一亮的东西。1T参数、42B激活参数、100万token上下文，这些放在今天都不稀奇。

MiMo-V2-Pro采用的MoE（混合专家）、混合注意力机制、MTP（多token预测），这些也都是大模型领域的通用技术方案，DeepSeek在用，谷歌也在用。

真正让这个模型区别于同行的，是后训练阶段的三项技术。

第一项是MOPD，全称Multi-Teacher On-Policy Distillation，多教师在线策略蒸馏。这是小米在MiMo-V2-Flash技术报告中首次提出的后训练范式。

要理解MOPD的价值，得先理解它要解决的问题。

大模型后训练有一个通病，俗名叫“跷跷板效应”。就是说你把数学能力练强了，代码能力就退化；你把agent能力拉上来，通用对话又变差。

这不是说某个团队的技术不够，这是整个产业都在面临的问题。

目前大家比较认可的对应方法有两种，第一种是训练多个领域专家模型，然后通过参数合并把它们糅在一起。不过这种方法的效果不是很理想。

另一种是让专家模型生成大量离线数据，再让学生模型去学，但这种方式存在严重的“分布偏移”问题。可是学生只学会了教师的答题方式，模型根本没有建立自己的思考方式，一旦遇到教师没覆盖的场景就会失灵。

MOPD的做法分三个阶段。第一阶段是通用 SFT，用高质量指令数据做基础微调，激活模型的指令跟随能力，这一步没什么特别的。

第二阶段是分别训练多个领域专家教师，比如说代码agent教师、搜索agent教师、数学推理教师、安全对齐教师，每个教师在自己的领域做到极致，不用管其他领域。

第三阶段是关键创新，让学生模型自己生成回答，然后同时接受多个教师的token级实时监督。学生从自身分布采样，接收自领域教师的KL散度奖励和可验证的结果奖励这两类信号，前者告诉模型“这个字应该怎么写”，后者告诉模型“最终答案对不对”。

小米公布的数据显示，经过MOPD训练的学生模型在AIME 2025数学竞赛上达到94.1分，不仅保住了最强数学教师的水平，在部分项目上甚至超越了教师本身。

第二项是真实环境的agentic RL训练。

尽管说现在大模型都会强调自己的agent能力如何如何，但是绝大多数模型在强化学习过程中，都是非agent相关的。

模型看一道题，输出一个答案，对完答案给个奖励，整个过程是单轮的、封闭的。

现实世界的任务可不是这样运作的。一个真正的agent需要读代码、改bug、跑测试、看报错、再改、再跑，这是一个包含了多种情况的完整过程。

小米为此构建了一套覆盖四大类场景、总计超过12万个真实交互环境的agent训练体系。

代码agent的训练数据从真实GitHub Issues中提取，模型需要在agent循环中读文件、改代码、跑命令、看测试结果，奖励来自可验证的单元测试。

终端agent从Stack Overflow和Stack Exchange中筛选需要高级技术专长的问题，转化为带有完整Docker环境和测试用例的计算任务。

网页开发agent用Playwright执行生成代码并录制视频，再用多模态视觉判别器评估质量——用视频而非静态截图来评估，因为视频能捕捉交互动画和响应式布局等动态特性。

通用agent覆盖搜索和函数调用两个方向。

其结果就是，在多样化agent 环境中增加强化学习计算量，收益会泛化到数学推理、通用推理等其他任务。也就是说，agent训练培养的不是某个特定技能，而是一种通用的问题解决能力。

别的大模型是在教室里做卷子，MiMo-V2-Pro 是直接被扔进许多个真实工作场景里实习，做错了有真实的测试结果告诉你哪里错了。

实习锻炼出来的模型，比做卷子练出来的，更懂得如何处理问题。

第三项是ARL-Tangram，这是小米与北京大学计算机学院联合研发的Agent RL训练基础设施系统，也是罗福莉作为通讯作者所参与的研究。

MOPD和Agentic RL解决的是“怎么训练”的问题，ARL-Tangram解决的是“用什么训练”的问题。

agent需要频繁调用外部资源，代码执行需要CPU，奖励模型需要GPU，网页搜索需要API配额。传统的RL框架，它的做法是静态资源预留，给每条训练轨迹分配一套固定资源，从头占到尾。

这就导致说即便没有任务，这条通道也被占用，别人想走也走不了。

ARL-Tangram的实测数据显示，在AI编程任务中，外部资源平均只有47%的时间在被使用，剩下53%完全闲置。

在MOPD训练场景中更夸张，12个教师模型各自占着一组GPU提供奖励服务，但这些GPU的平均流式多处理器活跃率不到3%，相当于97%的算力在空转。

ARL-Tangram继承了小米性价比之王的基因，它的核心思路就是细化资源管理，让每一份算力都跑得更有价值。

每次外部调用被视为一个原子动作，动作结束后资源立即释放，供其他轨迹使用。

实测效果：动作完成时间提升最高4.3倍，RL训练步骤时间加速最高1.5 倍，外部资源消耗降低71.2%。

同样的硬件投入，能支撑多得多的训练量。

雷军在V2-Pro发布当天的微博里写了一句话：“我们在 AI 领域上相对比较低调，实际进展可能比大家看到的要快很多。”

确实，小米在AI上的进展，远远超过了我的认知。

MiMo-V2-Pro对小米意味着什么

MiMo-V2-Pro出现之前，小米在软件和AI领域的技术存在感很低。

提到智能驾驶，人们想到的是特斯拉、华为、小鹏；提到大模型，是字节、阿里、腾讯。小米的标签始终是“硬件性价比之王”，雷军的手机、IoT 设备、汽车，都是硬件叙事。

诚然，这个标签帮小米卖出了很多产品，但也把它牢牢钉在了“组装厂”的认知框架里。

雷军自己也清楚这一点。

2023年年度演讲上，他提出了一个新公式：“（软件×硬件）^AI”，宣布小米未来五年研发投入超过1000亿元，重点攻坚芯片、AI和操作系统。

这个公式当时听起来以为雷军是说着玩玩的，结果人家这回来真的。

MiMo-V2-Pro的诞生，第一次让小米在纯技术维度上获得了一个全球级的排名。

Artificial Analysis Intelligence Index全球前十，中国第二。

事实上，我觉得只要能在全球大模型排行榜上占有一席之地，都相当于在资本市场、人才招募、合作谈判中都多了一张手牌。

至少当雷军说“小米是一家AI公司”的时候，能拿出这样一个成果来支撑观点。

但排名只是表面。更值得关注的是 MiMo-V2-Pro 与小米其他业务线之间的潜在协同。

小米汽车的智能驾驶团队在2026年3月刚刚完成组织架构调整，将“感知”和“规控”两个部门合并为“端到端算法与功能部”，全面转向端到端大模型技术路线，目标年内实现端到端智驾交付。

与此同时，小米早在2025年11月就发布了MiMo-Embodied，同步覆盖具身智能和自动驾驶的核心任务——环境感知、状态预测、驾驶规划。

所以MiMo-V2-Pro的这些成绩，说白了那都是给小米汽车打的广告。

MiMo-V2-Pro本身作为1T参数的云端模型，显然无法直接部署到车端，没有哪块车载芯片跑得动这个体量。

但小米的布局逻辑是“云-边-端”协同：云端用V2-Pro级别的大模型做训练、仿真和复杂决策，端侧用压缩后的轻量模型做实时推理。

MiMo-V2-Pro的价值不在于直接上车，而在于作为“教师模型”，通过前面提到的MOPD，将V2-Pro的能力蒸馏到端侧小模型中。

马斯克这边，情况就微妙多了。

Grok在2025年底的一次Holiday Update正式住进了特斯拉的车机里，然而它却只能设导航目、聊聊天，相当于是一个语音助手，它跟FSD之间只有导航链路的浅层联动。

与此同时，特斯拉本身车内控制座舱的AI，是来自于特斯拉自己的，跟xAI关系不大。

2026年3月，马斯克宣布了一个叫“Digital Optimus”的联合项目，说是要让Grok充当“高层推理大脑”。

他用了卡尼曼的双系统理论来类比，Grok是慢思考的System 2，特斯拉AI是快反应的System 1，也就是实时感知和动作执行。

然而仅凭马斯克的想法，我认为它们之间的协同远没有小米“云端大模型蒸馏到车端小模型”这条路径来得清晰。

我给MiMo-V2-Pro挑刺

本文并不是小米的软文，我只是一个AI产业的观察者，所以我在这部分准备给小米挑挑刺，以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分为78.0%，接近Claude 4.6 Sonnet的79.6%，这是一份关于AI编程的测试集，MiMo-V2-Pro的数字也确实好看。

但这里有一个行业内已经公开的秘密，SWE-bench Verified这个测试集本身已经不再可靠。

OpenAI的Frontier Evals团队在2026年2月23日明确表示，SWE-bench Verified“实际上已经饱和且高度被污染”，并且建议行业转向更难的SWE-bench Pro。

OpenAI的研究人员发现，包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在内的多个前沿模型，仅凭 SWE-bench Verified的Task ID就能复述出原始的gold patch，这就相当于你考试的时候，不用看题目，只看题目的编号就能给出答案。

这意味着测试题目很可能已经进入了训练数据。在这样一个被污染的测试集上拿高分，说服力大打折扣。

MiMo-V2-Pro没有公布SWE-bench Pro的成绩。这个更难、更抗污染的版本才是2026年衡量编码能力的真正标尺。

作为参考，目前SWE-bench Pro上表现最好的模型是OpenAI GPT-5.4，得分仅为57.7%，与SWE-bench Verified上动辄70%以上的成绩形成鲜明对比。

不止SWE-bench Pro。

MiMo-V2-Pro还缺席了另外几个关键的新一代测试集：ARC-AGI-2，专门测试推理泛化能力，纯LLM得分为1%，最佳推理系统仅54%，人类平均60%；Frontier Math，前沿数学推理；LiveCodeBench v6，按月更新的编程评测，几乎不可能被训练数据污染。

一个模型选择公布哪些benchmark、不公布哪些benchmark，本身就是一种信息筛选。

还有一个容易被忽略的问题：MiMo-V2-Flash是MIT开源的，但MiMo-V2-Pro的权重并未开源。

罗福莉在发布声明中说“会开源——当模型足够稳定值得开源的时候”，但在那之前，说明V2-Pro的性能还不够稳定。

雷军说“我们模型刚刚完成，未来一段时间，还会快速迭代增强”。这句话既是承诺，也是对现状的坦率承认。

MiMo-V2-Pro确实还有不少短板需要补。

它是小米从“硬件公司”到“AI公司”叙事转型中最重要的一块拼图，但这块拼图能否真正嵌入小米的商业版图，而不只是挂在墙上供人观赏，还需要时间来回答。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8rd5CDfbtzT

在大模型这件事上，雷军居然给马斯克打样了

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享2 个月前

小同爱分享3 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

在大模型这件事上，雷军居然给马斯克打样了

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享2 个月前

小同爱分享3 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索