AI写稿被AI认成人类？GPT-5.1pro彻底把同行卷麻了

阅读预计 18 分钟

AI写的稿子，被AI检测成“95%人类”

先从一个有点好玩的实验讲起。

我们把OpenAI发布的《Building more with GPT‑5.1-Codex-Max》官方英文文档，整份扔进新发的GPT‑5.1 Pro里，让它给“亲兄弟”GPT‑5.1-Codex-Max写一篇中文版深度评测稿；然后再把成稿丢进朱雀AI文本检测助手测一圈。检测结果显示：94.18%是“人工特征”，5.82%是“疑似AI”，AI特征是0%。

在另一个大厂的AI眼里，这篇稿几乎是人写的？？？

写稿的是GPT‑5.1 Pro，主角是GPT‑5.1-Codex-Max，鉴定的是腾讯系模型———三家AI在一篇稿子里排了个队。

更有意思的是，这篇“几乎被当成人类创作”的稿子，偏偏是在讲一款更能长时间干活、更会写代码的Agent模型。

AI已经可以写出“连AI检测器都觉得很人”的技术稿了？

那这位“被亲兄弟写稿、被旁系亲戚鉴定”的主角，本人到底什么来头？下面就正式请出今天的C 位——GPT-5.1-Codex-Max。

01 GPT‑5.1-Codex-Max：为“长活儿”生的Agent程序员

按OpenAI的说法，GPT‑5.1-Codex-Max是一款面向agentic编码场景的前沿模型，基于更新后的基础推理模型，在训练中额外叠加了面向软件工程、数学、研究等复杂任务的训练。

在Codex体系里，GPT‑5.1-Codex-Max主打三件事：

长时间、细节级的持续工作；
提升复杂任务中的推理与协作能力；
在保证质量的前提下，尽量省token。

具体到能力侧，官方强调它是在“真实战场”上炼出来的：它支持PR创建、代码Review、前端开发、技术问答等一整套真实工程任务，训练数据里还专门加入了“和Codex CLI配合干活”的任务设计。此外，这也是OpenAI首次明确说明“专门训练在Windows环境中执行任务”的Codex模型。

目前，GPT‑5.1-Codex-Max已经在Codex各入口开放：CLI、IDE扩展、云端环境以及代码Review界面都能调起它，API访问则在“即将上线”的计划里。

听起来像是一个人接下整个仓库的硬核故事，但它是怎么在记不住全部历史的前提下，还能把长活儿稳稳干完的？

这就得说说 Codex 这一代最有辨识度的技能：自己给自己做「会议纪要」。

02 Compaction：把上下文变成“可翻页的记事本”

如果要给GPT‑5.1-Codex-Max找一个最有辨识度的关键词，那就是官方反复提到的“compaction”(压缩)机制。

以前，大模型有一个天然上限：上下文窗口，一旦对话、代码、日志堆到上限，要么任务被迫中断，要么只能靠人手动删历史。

而compaction“让模型学会自己做会议纪要”。

大致过程分两步循环:

当会话接近上下文上限时，模型自动整理历史，把重要信息浓缩成更短的“摘要记忆”
把这份摘要塞进一个全新的上下文窗口，继续往下干活

在Codex应用中，这个压缩是在后台自动完成的。开发者看到的只是“Agent还在改代码、跑测试”，不会感知到中间发生了多少轮“清理记忆+整理重点”。

OpenAI内部评估显示：

GPT‑5.1-Codex-Max在单个任务中可以稳定处理百万级token历史；
能完成过去会因为上下文爆掉而失败的复杂重构、长时间Agent循环；
内部测试中，已经多次观察到它独立工作超过24小时，不断迭代实现、修测试失败，直至交付可用结果。

官方给的一个示例，是让GPT‑5.1-Codex-Max独立重构Codex CLI开源仓库：它在改文件、写测试、修Bug的同时，多次进行会话压缩，把过去的改动浓缩成“足够后续参考”的短记忆，从而避免上下文爆掉。

机制听着很酷，但工程师有一个共同癖好：再酷的故事，最后都要落到“数据给我看看”。

所以下一件事，就是把 Codex-Max丢上各类严苛 benchmark，看它纸面成绩到底能不能打。

03 性能评测：纸面成绩也得看看

说完机制，回到大家最关心的数字。根据 OpenAI 的系统卡片与公开说明，GPT-5.1-Codex-Max 在多项前沿软件工程评测中全面超越上一代 GPT-5.1-Codex，尤其在贴近真实工程场景的任务上进步明显。

官方给出的关键评测数据：

SWE-bench Verified（n=500，真实开源项目bug修复），提升约4.2个百分点，更接近“能稳定修Bug”的状态。
SWE-Lancer IC SWE（自由职业工程任务，偏PR交付），提升约13.6个百分点。
Terminal-Bench 2.0（n=89，命令行与环境操作，在Laude Institute Harbor框架下测），提升约5.3个百分点，对终端操作类任务更靠谱。

所有这些评测，都在开启compaction、使用较高推理强度的设定下完成，更类似“给足它时间思考，看极限能干到什么程度”。在METR等机构的长程任务评估中，OpenAI也表示GPT‑5.1-Codex-Max在长任务能力上达成了新的SOTA。

成绩单已经证明：它是那种真的能把复杂活干完的选手。

但对老板来说，还有一个很现实的问题：

“你这么能干，是不是也很花钱？”

于是 OpenAI 顺手给了第二张答卷——在同等质量下，它还挺省。

04 同质量答案，少用约30%思考token

除了性能提升，这一代模型在 token 效率上也完成了一次“瘦身”。

在GPT‑5.1-Codex-Max上，OpenAI把“模型愿意想多久”做成了一个显式可调的参数:reasoning effort，目前包括low、medium、high、xhigh四档:

medium：官方建议的日常默认档；
xhigh：用于质量优先、时延不敏感的场景；
low：适用于实时互动或高时效需求。

在 SWE-bench Verified 上的对比显示： 在同为 medium 的推理强度下，GPT-5.1-Codex-Max 使用更少的 thinking tokens，同时获得更高准确率，思考开销减少约 30%。

简单理解就是：“更聪明，也更省钱”。

为了让 token 节省更有直观参考，OpenAI给了一个前端任务案例：让模型生成一个自包含的浏览器单页应用，完成以下需求：

一个交互式CartPole强化学习沙盒，使用canvas绘图；
内置简单policy-gradient控制器，能真实训练；
带有网络结构SVG可视化，以及训练时的权重/激活展示；
显示每轮步数、奖励、本轮生存时间和最好成绩；
最终落地为一个index.html文件。

在功能和观感相近的情况下，新模型用更少的token、调用更少的工具、写出更紧凑的代码。

到这里，我们已经知道：它又能干、又相对省。

接下来不可避免的灵魂拷问——“一个能连轴转 24 小时的 Agent，要是想干坏事怎么办？”

05 能力在涨，刹车也在同时加厚

OpenAI 的做法可以一句话概括：“模型变强，但我们同时把安全线拉得更紧。”

具体怎么做？分三点：

第一，模型很强，但官方故意没放到最高档。在网络安全相关能力上，它已经是目前对外开放里最强的模型之一。但 OpenAI 主动不给它开到最高权限。

第二，一边强化防御能力，一边严密盯着风险。

OpenAI 给它做了专门的安全监测：

监控它在网络安全任务中的所有表现；
通过 Aardvark 项目先让“防御方”（做安全的人）用起来，做漏洞扫描；
如果有人想利用模型搞攻击，系统会主动识别并中断；
所有可疑行为会自动流入“策略监控系统”，人工审核。

第三，把执行环境限制得很死，让模型“做不了坏事”。 在 Codex 的运行环境里：

不能随便写文件：只能写在自己的 workspace；
不能随便上网：网络默认关闭，需要人类手动打开；
官方强烈提醒：别轻易让 Agent 上网，因为这会让它暴露在恶意内容和提示注入风险中。

安全护栏焊好了，接下来就是另一个最实际的问题，这东西现在是研究院玩具，还是我们普通团队也能上手？

06 谁能先用到？

在产品策略上，OpenAI这次没有把GPT‑5.1-Codex-Max当“小规模内测”，而是直接推成Codex的默认主力模型。

根据OpenAI对外说明：

ChatGPT Plus、Pro、Business、Edu与Enterprise用户，都可以在Codex相关界面直接使用GPT‑5.1-Codex-Max；
具体用量和限额以各自套餐文档说明为准；
对使用Codex CLI并通过API key接入的开发者，会在后续开放GPT‑5.1-Codex-Max的API访问。

从“今天起”（以官方说法为准），GPT‑5.1-Codex-Max将替代GPT‑5.1-Codex，成为Codex各类入口中的默认模型。与此同时，OpenAI给出的模型选型建议是：

GPT‑5.1仍然是面向通用需求的“大脑”：聊天、写作、分析；
GPT‑5.1-Codex-Max和整个Codex家族，则推荐只在Codex或类似环境中，用于agentic编码任务。

在内部使用数据上，OpenAI还顺手晒了两组数字：

内部约95%的工程师每周都会使用Codex；
这些工程师在采用Codex后，提交Pull Request数量大约提升70%。

这当然不等于“每家公司上了Codex都能多70% PR”，但至少说明，在一家以AI为核心业务的公司里，“工程师+Agent”的组合已经成为默认工作流。

07 一个写代码的“长跑选手”和一个更会思考的“学霸大脑”

如果把视角再拉远一点，11月20日这波更新其实有“两位主角”：写代码的GPT‑5.1-Codex-Max，和负责“深度思考”的GPT‑5.1 Pro。

先简单交代一下 GPT-5.1 Pro 是什么：

它是在 GPT-5.1 的基础上，专门往“高强度推理”这条线又推了一步——重点强化长链条思考、复杂规划、工具组合和专业领域问答。

相比基础版，Pro 更擅长把一件事拆成多步计划、反复验证中间结论，在数学、代码理解、科研类任务上都拉高了一档，代价就是：会更慢，但更愿意“多想一会儿”。

社区对 GPT-5.1 Pro 的评价，也基本围绕这个特点：

按照Epoch AI评估，在high推理模式下，GPT‑5和GPT‑5.1 Pro的整体能力指数(ECI)都在150+档，几乎是一个级别的“顶配大脑”；
杰克森实验室教授、人类免疫学家Derya Unutmaz表示，GPT‑5.1 Pro在解释免疫学未解难题时，比GPT‑5.0 Pro更清晰、更有条理，能让没有相关学位的读者也看懂为什么这些问题重要；
HyperWrite AI首席执行官Matt Shumer在长文测评中把GPT‑5.1 Pro称为“目前最好的大脑”：推理能力远超多数人类，在复杂规划、研究类任务上，明显优于其他模型，但代价是比较慢。

综合社区反馈来看，很有点“双核”搭配的味道:

GPT‑5.1 Pro:偏“思考型学霸”，适合一次性必须做对的决策、规划、研究；
GPT‑5.1-Codex-Max:偏“执行型工程师”，可以接过厚厚一摞issue和PR，长时间埋头干活。

一个更会想，一个更会干。组合起来，是不是有点像给团队多招了一个架构师+一个外包工程团队的感觉。（只是都在你电脑里。）

08 彩蛋

回到开头那个小实验。

我们把OpenAI的英文原文丢给GPT‑5.1 Pro，让它写出一版中文版深度稿，再把这篇稿扔进朱雀AI文本检测助手里。检测结果是：

人工特征：94.18%；
疑似AI：5.82%；
AI特征：0%。

检测界面的总结是：“人工创作特征显著”。这件事对内容和开发两个圈子都挺有意思：

对内容行业来说，这说明单靠“AI检测”这条线，想在所有场景里准确区分人类与AI创作，难度会越来越大。
对开发者来说，“AI 自己读官方文档、自己写自己评测”的流程，已经基本不再需要人工翻译，只需要在人类层面做选题、结构和把关。

结语：

回头看，其实也就这几年的事。以前我们还会为「代码自动补全多猜对了几行」感到惊喜；

而现在，GPT-5.1-Codex-Max 已经可以接过一整个仓库的历史，对着成堆的 issue 和测试结果，一行行改下去，不停机、不喊累。

接下来，更值得关注的，可能不是“Agent还能写多少行代码”，而是：

团队会把哪些重复劳动大胆交给Agent跑上十几个小时；
哪些关键环节，依然坚持“必须人类拍板”；
工程师的日常工作，会如何从“全流程亲自上手”，变成“定规范、负责任”。

当 24 小时在线的 Agent 变成标配，每个团队都要重新回答同一个问题：我们，究竟希望它替我们做什么？

以下GPT5.1 pro直出ai文章：

OpenAI发布了新一代Agent编码模型GPT‑5.1-Codex-Max,定位是“前沿Agentic编码模型”,已经在Codex里上线,主打更强的长任务能力和更高的token效率。官方给出的数据是,在多个真实软件工程评测上,新模型相对上一代GPT‑5.1-Codex有明显提升,尤其是在大项目修复、复杂PR和长时间调试场景中。

轻点评估:简单说,它不是只会“补全几行代码”的模型,而是奔着“能单独干一件像样活”去的。

这次升级背后还有一个更深的目标:把模型从“聊天式助手”推向“能独立跑上几小时的工程Agent”。

GPT‑5.1-Codex-Max首次原生支持跨多轮上下文窗口的训练，通过compaction机制在单任务里稳定处理百万级token,并支持长达数小时甚至超过24小时的Agent循环。

轻点评估:在Agent这条赛道上,OpenAI这次选择的是“把耐力开满”。

一款为Agent打磨的编码模型,专门干“长活儿”

根据OpenAI官方博客公告显示,GPT‑5.1-Codex-Max基于更新后的推理基础模型,训练数据集中包含了大量Agent任务,覆盖软件工程、数学、研究等复杂场景,强调“从头到尾做完一个任务”,而不是只做中间某一步。

在软件工程侧,它重点训练了以下几类真实任务:

PR创建与修改
代码审查(code review)
前端编码与交互设计
技术问答与调研类任务

同时,这是OpenAI第一款专门训练在Windows环境中执行任务的Codex模型,训练过程中还加入了大量针对Codex CLI协作的任务设计,让模型更懂命令行、工具调用和工程项目结构。

轻点评估:从训练目标看,这更像一个“工程合作者”,而不是“代码自动补全工具”。

在产品形态上,GPT‑5.1-Codex-Max已经在Codex的多个入口开放使用,包括:

命令行工具Codex CLI
IDE扩展
云端执行环境
代码审查场景

API方式的接入则还在“即将上线”的规划中。

轻点评估:对已经在用Codex的团队来说,更像是在原有工作流里直接换上了更强内核。

前沿评测:多项编码基准上明显抬头

OpenAI对GPT‑5.1-Codex-Max跑了一轮比较“硬核”的评测集,包括真实bug修复、自由职业任务和终端操作任务等,并强调这些评测均在开启compaction、推理力度为Extra High的设定下完成。

根据OpenAI公开的模型评测数据显示:

SWE-bench Verified(500项真实开源项目bug修复任务)
- GPT‑5.1-Codex(high):73.7%
- GPT‑5.1-Codex-Max(xhigh):77.9%
SWE-Lancer IC SWE(真实自由职业工程任务,强调PR级别输出)
- GPT‑5.1-Codex(high):66.3%
- GPT‑5.1-Codex-Max(xhigh):79.9%
Terminal-Bench 2.0(89项命令行操作任务,在Laude Institute Harbor harness环境下执行)
- 两代模型准确率分别为52.8%与58.1%,官方不同位置的图表在排序上略有出入,但整体处于同一量级

整体来看,在更贴近“真实工程活儿”的SWE类测评中,GPT‑5.1-Codex-Max的提升相当直接,尤其是SWE-Lancer这类以“接单交付”为目标的评测,准确率接近80%。

轻点评估:从这些数据看,新模型的改进重点不是“算法赛题”,而是“能不能把一个PR写完”。

需要注意的是,上述分数是在Extra High推理档位(即模型思考时间拉满)下得到的,并不代表日常medium档位的表现,但可以看出模型在“长线复杂任务”上的天花板被推高了一截。

轻点评估:这更像是展示“极限能力”的成绩单,给团队一个预期上限。

更省token:推理档位和前端CartPole例子

相比上一代,GPT‑5.1-Codex-Max另一个明显变化是token效率。OpenAI把模型的“思考时间”用reasoning effort来刻度,分为low、medium、high和新增的Extra High(xhigh)等档位。

根据OpenAI在SWE-bench Verified上的对比结果显示:

在同为medium推理档位下,GPT‑5.1-Codex-Max的准确率优于GPT‑5.1-Codex
同时,GPT‑5.1-Codex-Max使用的“思考token”约少30%,也就是说在给出更好答案的同时,推理成本更低

对于不那么敏感于延迟的任务,OpenAI还引入了Extra High(xhigh)档位,允许模型用更长的推理链来换取更高的正确率,官方建议大部分日常开发还是以medium档为主。

轻点评估:把“算得好”和“算得省”一起优化,才是真正对账单友好的升级。

在前端生成场景,OpenAI给了一个比较具体的CartPole强化学习沙盒例子。两代模型接到的需求是一致的:

生成一个浏览器单页应用,用canvas渲染CartPole交互环境
内置一个简单的policy-gradient控制器,真的能训练
提供网络结构的SVG可视化,包含权重/激活可视化
展示每轮步数、奖励、本轮存活时间和历史最好存活时间等指标
最终输出一个自包含的index.html文件

根据OpenAI示例数据显示,在满足同等功能与视觉要求的前提下:

GPT‑5.1-Codex-Max约用27000个思考token
GPT‑5.1-Codex约用37000个思考token
工具调用次数为6次对比10次
生成代码行数约为707行对比864行

也就是说,在一个足够复杂的前端demo里,新模型在token、工具调用次数和代码量上都更紧凑。

轻点评估:对习惯“让模型先把demo全写完再重构”的团队来说,这能省下的不只是token,还有CI/CD和浏览器里的一堆等待时间。

Compaction:从几千token到百万token的“长跑模式”

GPT‑5.1-Codex-Max最有辨识度的能力,是官方反复强调的compaction机制。

简单理解,以前模型遇到上下文窗口上限时,要么任务被迫中断,要么只能靠人工裁剪历史对话。而compaction是在训练阶段就让模型学会“主动整理自己的上下文”:当对话接近上下文上限时,模型会自动对历史进行压缩,保留后续完成任务必需的信息,并在一个新的上下文窗口中继续工作。

根据OpenAI介绍显示,得益于compaction:

GPT‑5.1-Codex-Max可以在单个任务中稳定处理百万级token历史
可以完成过去会因上下文爆掉而失败的复杂重构和长时间Agent循环
在Codex应用中,模型会在接近上下文上限时自动触发压缩,然后继续任务,直到成功结束

OpenAI内部评估中,已有任务让GPT‑5.1-Codex-Max独立工作超过24小时,期间模型会持续迭代实现方案、修测试失败、再运行测试,直到整个链路闭环跑通。

轻点评估:如果说以前的Agent像“跑个5公里就要停下来喘气”,这次更像把耐力提到了“马拉松级别”。

官方还展示了一个用GPT‑5.1-Codex-Max独立重构Codex CLI开源仓库的例子:在长时间的会话中,当上下文接近上限时,模型自动压缩历史,又继续对文件结构、测试和实现进行调整。

轻点评估:对于长期维护的大仓库来说,这类能力开始把“项目级重构”变成一个可交给Agent尝试的选项。

安全与可信:更强的网络安全能力,也更谨慎的边界

长时间运行的Agent天生带着更强的安全风险,OpenAI在这次发布里用相当大的篇幅讨论了安全和网络安全问题。

根据OpenAI在GPT‑5.1-Codex-Max系统卡片和Preparedness Framework中的描述显示:

在需要长线推理的评估上,GPT‑5.1-Codex-Max表现明显优于之前的模型
在网络安全(cybersecurity)维度,这是OpenAI迄今部署过能力最强的模型之一
但在Preparedness Framework框架下,该模型在网络安全上的能力等级仍未达到High capability,官方明确表示会提前为未来可能达到High的情况做准备

从上线策略看,OpenAI强调:

从GPT‑5-Codex开始,就为网络安全场景部署了专用监测,用于识别和阻断恶意活动
目前尚未观测到大规模滥用显著增加,但会为更高级能力预先准备额外缓解措施
他们已经实操中多次打断试图滥用模型的网络行动,可疑行为会进入策略监控系统进一步审核
通过Aardvark等项目,优先确保防御方能更好利用这些能力进行自动化漏洞扫描和修复辅助

在执行环境上,Codex默认运行在安全沙盒中:

文件写入被限定在其workspace目录
网络访问默认关闭,需要开发者显式开启
官方建议将Codex长期保持在这种受限模式下,因为一旦开启网络搜索,就会暴露在来自不可信内容的prompt injection(提示注入)风险中

另外,随着Agent长时间自动运行能力增强,OpenAI多次强调“人类在环”的重要性:开发者应在模型改动代码或部署到生产前进行审查。为此,Codex会保留终端日志,并给出工具调用和测试结果的引用,作为代码审查的辅助信号。官方也明确表示,Codex应该被视为“额外一位审查者”,而不是人类代码审查的替代品。

轻点评估:一边把能力往上推,一边把防护线往回拉,这大概会成为未来高能力Agent上线的常态姿势。

怎么用:谁现在就能上手GPT‑5.1-Codex-Max

在可用性上,GPT‑5.1-Codex-Max这次不是“小范围内测”,而是直接进入了主力位置。

根据OpenAI官方说明显示:

目前在Codex中,ChatGPT Plus、Pro、Business、Edu和Enterprise等付费方案用户都可以使用GPT‑5.1-Codex-Max
使用Codex CLI并通过API key调用的开发者,将在后续获得GPT‑5.1-Codex-Max的API访问能力
从发布之日起,GPT‑5.1-Codex-Max会在所有Codex相关入口替代GPT‑5.1-Codex,成为默认模型

与此同时,OpenAI也给出了模型选型建议:

GPT‑5.1是一款通用模型,适合广泛的自然语言和综合任务
GPT‑5.1-Codex-Max以及整个Codex家族模型,建议仅在Codex或类似Codex的环境中,用于Agentic编码任务

这意味着,在OpenAI自己的产品体系里,“写代码”和“通用对话”开始走向更明确的模型分工。

轻点评估:对已经把Codex融入日常开发的团队来说,这更像一次“静默换代”的升级,但背后换上的已经是新一代的Agent引擎。

结语:95%工程师在用的Agent,下一步会写多少代码

在发布末尾,OpenAI丢出了一组相当直白的内部数据:根据其内部统计显示,目前约95% OpenAI工程师每周都会使用Codex,在采用Codex后,这些工程师提交的pull request数量大约提升了70%。这组数字与其说是在“宣传产品”,不如说是在提示一种正在形成的新常态:工程师和Agent一起写代码,会成为默认状态。

从GPT‑5.1-Codex到GPT‑5.1-Codex-Max,OpenAI的方向很清晰:从“写几行代码的助手”,走向“能完整跑完一个PR甚至一个项目的Agent”。长时间运行能力、compaction多窗口上下文、token成本优化和安全边界,都在为“把一件复杂工程活交给Agent”这件事铺路。

接下来更值得观察的,可能不只是模型本身还能提升多少分数,而是各家团队会怎样重构自己的工程流程、测试体系和代码审查机制,去真正吃掉这部分能力红利。

轻点评估:问题已经不再是“Agent能不能写代码”,而是“你敢把多少真实代码交给它写”。

你会愿意把什么样的项目或任务交给一个可以连续工作十几个小时的Agent,又会坚持把哪些关键环节牢牢掌握在自己手里?

来源:OpenAI

摘要:OpenAI发布GPT‑5.1-Codex-Max,在长任务能力与token效率上全面增强,正把代码Agent推向“能独立干活”的新阶段。

相关推荐: NanoBanana Pro 图像生成能力全面测评

完整测试画廊：https://nano2.wmxiaomu.com/ 这一代的核心升级是「推理驱动的图像生成」。为了验证模型能力，我们设计了7大类、220个测试案例，覆盖： · 电影风格（19张）：诺兰式梦境、宫崎骏田园、昆汀复古、张艺谋红灯笼…… · 科学可…