阅读预计 8 分钟
本文转载自全网首测!MiniMax M2.5发布,跑OpenClaw实测真香

2026 年开年,AI Coding 赛道突然加速,OpenAI 的 Codex 5.3 号称代码生成速度提升 25%,Claude Opus 4.6 在 SWE-bench 上继续刷榜,智谱 GLM-5 直接上了 745 亿参数。
但比起 benchmark 上的分数,我的钱包先吃了瘪,快速版 Opus4.6 收费 6 倍,再配上多 Agent 集成,这价格就算打了骨折都不便宜。我就用了三天。。。

直到后来发现 MiniMax 的 的 Codeing Plan,价格便宜,量大管饱,果断切了过去。用了一阵子体感不错,日常写代码够用,响应速度也快。
然后就赶上了 MiniMax 更新 M2.5。
既然包月已经买了,不测白不测。我第一时间要了API内测资格,把 M2.5 接入了最常用的 Claude Code,准备从简单到复杂拉通测一遍。
Case 1:睡前下单,醒来验货
先拿个实际需求试试水。
我手里有一套九年级英语教材的资料,JSON 格式的单元知识点、Excel 的词汇表、PDF 的课文原文。我想把它们做成一个可交互的学习网站,要符合现代教育理念,能做测验、能追踪进度。

正好拿来当第一个测试。我就在 Prompt 里写了一句狠话:
“把这些做成一个可交互的学习网站,做完再提醒我,如果没弄完停了就自己想办法推进,不要让它停下来。”
说白了,我在测试 M2.5 的自主执行能力,不光得会写代码,还得会自己“推活儿”。
然后我就去睡了。
第二天醒来一看终端日志,M2.5 干了这些事:
-
读取 JSON+Excel+PDF 三种格式的教材文件 -
自动安装项目依赖 -
搭建了一个完整的 FastAPI 后端项目 -
实现了 3 个 API 模块——单元内容、测验系统、进度追踪 -
写了完整的前端页面 -
启动服务并自测 API
打开网站一看,14 个单元的知识点全部结构化呈现,测验系统支持选择题、填空题、翻译题三种题型,还有学习进度条和响应式布局。
这完成度,说实话超出预期。
不过有个小插曲:首页路由返回了裸 JSON,页面没渲染出来。M2.5 发现这个问题后,自己 debug 了 3 轮,第一轮定位到路由配置问题,第二轮修了模板渲染,第三轮跑通自测。

不需要我介入,自己搞定了。
虽然 3 轮 debug 说明,它的一次通过率还有提升空间,但能“发现问题 → 定位 → 修复 → 验证”这套自主闭环跑通,已经是 Agent 能力的硬指标了。
醒来收到一个能用的网站,这感觉确实不错。
Case 2:建网站只是热身,来看看数学功底
接入工作流用了一下午,我发现全栈开发确实是 M2.5 的舒适区。官方也说了,编程和智能体性能比肩 Opus 4.6 这个级别的旗舰。那我换个赛道,看看它在数学和物理方面的理解力。
我找了一个双摆混沌运动的数学可视化视频,附上完整的文案解说,给 M2.5 下了个需求:
“理解这个视频的数学之美,选取最精彩的部分,用代码重现可视化动画。”
这个任务有意思的地方在于,它不只是写个物理模拟那么简单,得先看懂视频里讲了什么,理解混沌这个概念在双摆系统中的具体表现,然后选择合适的可视化方案来复现这种数学之美。
M2.5 第一次理解错了。它以为我要做视频剪辑,拿 ffmpeg 开始拆帧重拼。。

我纠正了一下:“不是剪视频,是用代码模拟物理过程。”
纠正之后,它的表现让我有点意外。
M2.5 写出了一整套物理引擎:
-
拉格朗日力学运动方程:双摆系统的核心数学描述 -
四阶龙格-库塔积分器:数值求解微分方程的经典方法 -
Phase Space 颜色映射:把摆的运动状态映射到颜色空间 -
混沌翻转检测:判断双摆何时进入混沌状态 -
40×40 网格模拟:1600 个双摆同时演算
更让我意外的是,视频里提到的“杏仁状稳定区”和“混沌海洋中的稳定岛”这些概念,它都准确理解了,在代码里做了对应的实现。最后用 Remotion 搭建了一个视频项目,包含 Intro、双摆阵列、网格场景三个段落,完整可运行。
当然,第一次误解为视频剪辑这个失误值得记一笔。但纠正后能快速切换到正确的技术路径,而且物理引擎的实现相当专业。这说明 M2.5 的数学推理能力,确实稳扎稳打。
Case 3:算法能力过关了,那工程能力呢?直接上 Boss 级
前两个 Case,一个测全栈开发,一个测数学理解,M2.5 都交出了不错的答卷。但真正考验一个模型工程能力的,是大型项目。模块多、依赖复杂、需要跨文件协调的那种。
我直接给了个 Boss 级任务:
独立开发一个企业级 CMS 内容管理系统。
技术栈要求:NestJS + Next.js + Prisma ORM + PostgreSQL + Docker Compose + K8s 部署。外加 OpenClaw 接口对接,支持自动发帖。
这个难度什么概念呢?相当于让一个程序员独立搞定一个小型创业公司的核心产品。
后端 8 个模块化服务,前端完整管理后台,加上 Docker 和 K8s 配置。这工程量,手写至少得一个小团队干一周。

M2.5 把整套系统搭了出来。后台管理界面清晰,内容可编辑、可发布,权限、搜索、统计仪表盘一应俱全。
但 M2.5 写出来的版本有 Bug 吗?有。12 个。5 个后端,7 个前端。
我翻了一下这些 Bug,发现一个挺明显的规律,主要集中在三类问题上:
-
跨文件一致性:同一个 extractData 解包逻辑在 3 个地方写法不一致 -
ORM 兼容性:部分写法在 SQLite 下能跑,但 PostgreSQL 报错 -
功能完整度:少了几个操作按钮
简单理解是,M2.5 在单模块内的逻辑上几乎没问题,但因为激活参数只有 10B,在处理大型项目时,注意力分配到十几个文件上,难免会有顾此失彼的地方。单个模块内的逻辑几乎没问题,但多个模块之间的一致性维护,就容易出缝隙。
其实这也是目前 AI 编程模型的共性短板。写一个文件很强,跨十个文件保持一致就容易出纰漏。只是 M2.5 因为参数更轻,这个问题会更明显一些。
我把这 12 个 Bug 交给 Claude Opus 4.6 来修,38 分钟就全部搞定了。
这也验证了一个很实用的工作流:M2.5 负责快速搭建项目骨架和核心功能,Opus 负责精修和 debug。一个冲锋一个收尾,效率相当恐怖。
意外收获:兼容性好到离谱
测完三个 Case 之后,我本来想收工了。但出于好奇,多试了一步:把 M2.5 接到不同的工具里,看看兼容性。
我分别测试了最火的 4 个开发工具,Claude Code、Claude SDK、OpenClaw、OpenCode,结论是:全部兼容,即插即用,零适配成本。

其中 OpenClaw 的表现最让我印象深刻:在 Telegram 里通过 OpenClaw 切换到 MiniMax-M2.5 后,直接就能正常对话。
对开发者来说,你现有的工具链,不管是在用 Claude Code 写代码,还是用 SDK 搭 Agent,甚至在用第三方工具,都可以无缝切换到 M2.5,不需要改一行代码。这个 API 兼容性,在国产模型里相当罕见。
MiniMax 显然注意到了这一点。智能体原生架构不只是说说,Agent 脚手架的泛化性确实做到了。能在 Claude Code 这种对模型能力要求极高的环境里稳定工作,说明函数调用、工具使用、多轮对话管理这些底层能力都到位了。
10B 的秘密:为什么这么小也能这么强?
10B 激活参数跑出旗舰成绩,听起来有点玄学。从内部技术打听后,我大概理解了他们的思路。
三个字:专门练。
传统的大模型训练,先练通用底座,再微调到具体场景。M2.5 反过来,从训练阶段就把 Agent 场景放在了核心位置。
MiniMax 此次搭了一套原生的 Agent RL 训练框架,把训练引擎和 Agent 环境彻底解耦。引擎只管处理 token 数据,对外暴露标准的 OpenAI 接口,Agent 那边只需要专注环境交互和上下文管理。
这个设计带来一个很直接的好处,任意 Agent 都能接入训练。Claude Code 也好,OpenClaw 也好,第三方工具也好,M2.5 在训练阶段就已经见过各种脚手架和工具链了。
算法上也有讲究。M2.5 沿用了 MiniMax 自研的 CISPO 算法,针对 Agent 场景里动不动几十轮对话的长上下文问题,他们引入了更有针对性的奖励机制(Process Reward)。对中间每一步的生成质量进行打分,全链路监控。
还有一个很聪明的设计,即通过评估 Agent 执行轨迹的耗时,在模型智能度和响应速度之间找最优平衡。这就解释了为什么 M2.5 跑起来又快又不傻。
工程层面更硬核。据称他们实现了约 40 倍的训练加速。40 倍???
这就解释了为什么 10B 能打出旗舰成绩。参数少,但每个参数都在 Agent 场景上练到位了。别人靠堆参数覆盖能力,M2.5 靠精准训练把有限参数的效率拉满。
总结:这匹黑马,凭什么?
测完这三个 Case 加上兼容性验证,我对 MiniMax-M2.5 有了一个比较完整的判断。
先说能力层面。编程和 Agent 能力确实达到了第一梯队——全栈 Web 开发、数学物理模拟、企业级系统搭建,三个场景都交出了有说服力的答卷。Vibe Coding 支持 PC/App/React Native 跨端开发,还能搞 Flutter,前后端全栈带数据库,这个能力覆盖面放在国产模型里是顶配了。
再说效率层面。M2.5 支持 100 TPS 超高吞吐量,推理速度是 Opus 的 3 倍。实测下来,9 分钟搭完一个全栈学习网站,这个速度确实配得上极致推理效率的标签。
但最让我觉得这事儿有点东西的,是它的参数效率。
MiniMax-M2.5 的激活参数量仅 10B。这是第一梯队旗舰模型里参数最小的。什么概念?同样的显存预算,别人只能跑一个实例,你可能跑得起三个。对于需要私有化部署的企业来说,这个显存占用和推理能效比的优势是压倒性的。
当然,缺点也要说。
跨文件一致性、首次理解偏差、大型项目的 Bug 率,据说这些问题他们还在继续优化,看着迭代越来越快,非常期待下一个版本。下次睡前给 AI 下需求,醒来可能收到的不只是一个网站,而是一整套业务系统。
目前,M2.5 已在 MiniMax Agent 上线,且即将开放 API,推荐大家去试试。


