文 | 锦缎
OpenAI明里背地预热了很久的GPT-5.4,终于在上周五精采亮相了。它的能力提高自不必说,但有真谛的是,此次发布的新版块,和当下爆火的哄骗“龙虾”(OpenClaw),有着剪不停的联系。而这一切的中枢,就藏在OpenAI官方先容中反复强调的一个枢纽能力上:“Computer-Use”(谋略机使用)。
在伸开之前,咱们先亮出中枢不雅点,亦然本文想要传达的主旨:透过GPT-5.4,咱们不错看到,OpenAI正在打造的,早已不是一个更贤达的聊天模子,而是一个全新的“AI操作系统”(AI OS)。
从长高下文、器具调用到原生操控电脑,这一切齐是在为这个“操作系统”铺路。当寰宇还在为OpenClaw的爆火而甘愿,为Agent的见识而兴奋时,OpenAI一经将Agent的中枢能力(Computer-Use)内建于模子底层。
寰宇约略还浑然不知,但咱们正站在一个新时间的着手:AI行将从“居品哄骗”周折为“操作平台”。
01 操作系统”的内核:推理+编码+责任流比拟Google的Gemini 耀眼于寰宇常识,OpenAI 的ChatGPT系列通常会被界说为“理科生”。
诚然自升级到 GPT-5 以后,它给东谈主提供情感价值的能力略有收缩,但编程和数学能力仍然极为出色。
这一次,为了让能力溢出的 AI 能够在 Agent 时间奏凯落地到具体哄骗上,GPT-5.4 完好意思了一项中枢技艺纵情:
将推理、编码、智能体责任流三方面能力整合至单一模子架构之中 。
简便来说,GPT-5.4 更万能了,况兼在特定边界的能力也更强了,它不再是一个单一功能的器具,而是一个具备通用能力的“操作系统内核”。
在推理层面,为了更好地落实到哄骗层面、让模子具备现实复杂任务的能力,OpenAI 特地强化了 GPT-5.4 的高下文领路能力。
靠近 100万 token 量级的复杂任务(异常于不错一次性处理整套名堂文档或永劫财务记载),模子能够整合海量的数据并正确进行信息去重 。对于单条事实宣称的缺欠率比拟 GPT-5.2 责问了 33%,在高专科度场景下的输出愈加着实。
除此以外,GPT-5.4 一经不错在 CodeX 中设立因循 1M 的高下文窗口,不外需要用户在 config.toml 中手动设立,不然默许仍为 256k。
具体到常识责任,在面向 44 种业绩的 GDPval 基准测试中,GPT-5.4 能够在 83% 以上的场景中达到致使卓绝行业各人水平 。
比拟于 GPT-5.2 的 70.9% 水平,这一提高幅度一经十分显赫。不外令东谈主有些疑心的是,GPT-5.4 的 Pro 版块模子反而推崇略逊于 GPT-5.4。(官方解释为 Pro 版块更侧重于顶点复杂任务的领会性,而非通用场景的平平分)
为了更好地让 GPT-5.4 融入东谈主们的本体责任场景,OpenAI 在官方先容中直不雅展现了新版块模子在电子表格、文档和幻灯片三个场景的专科级推崇:
除此以外,GPT-5.4 获取的显赫进步,在金融和法律等高专科度边界也浮现了至关重要的作用。
多家外洋机构的反映流露,新模子在财务建模、公约分析、长周期任务现实中准确率提高的同期,用户与 AI 的交互频次也减少了好多,显赫镌汰了任务完成时期。
针对最受开荒者怜惜的编码场景,GPT-5.4 保握了与 GPT-5.3-Codex 生成同等质料代码的能力,莫得显赫的提高。不外,新增多的“/fast”模式能够完好意思约 1.5倍 的 token 生成速率 。
智能体方面,器具调用能力是智能体完成任务的中枢,新引入的“器具搜索 (Tool Search)”机制让模子能够在数万个器具的大型生态中按需调用能力,在准确率保握不变的情况下token破钞量惊东谈主地下落了47% 。
这恰是“操作系统”调度底层资源的形式,高效且精确。
02 原生谋略机操作:从领路到现实,这等于“操作系统”的界面AI 的形态一经从大言语模子演进到了智能体,想要完好意思居品的交易化就必须让 AI 能信得过帮东谈主们作念事。
于是,全球的AI企业异途同归地将目力放到了用户PC的放置权上。
然则,多样桌面端代剃头布一段时期后,下载率和留存率其实齐不睬想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言,也有好多东谈主不肯意单独下载一个桌面端代理软件 。
寰球早已习气和 AI(大言语模子)聊天,却还没符合让 AI(智能体代理)给与电脑。
于是,OpenAI想出了一个天才般的点子:让用户每天齐在用的大模子操控电脑,无用专门下载安设。
于是,GPT-5.4 做贼心虚地成为了第一个具备原生谋略机操作能力的通用模子 。
旨趣其实并不复杂,它能够笔据屏幕截图发出鼠标键盘教唆,也不错通过 Playwright 等库编写代码来径直操作软件系统 。
比拟于需要专门老师才能使用的 PC 端代理助手不同,GPT-5.4 选择将操控电脑的能力径直内建于通用架构之中,开荒者在归拢模子中即可无缝切换推理、编码或现实任务。正如“操作系统”自然领有底层硬件(键鼠、屏幕)的驱动相似。
一提到操控电脑,那安全问题就不可规避。
GPT-5.4 的活动可通过开荒者的输入进行致密化转变,以此符合不同哄骗场景的需求 。
为了确保安全,开荒者不错配置自界说的安全阐明计谋,笔据任务风险等第设立不同的操作阐明机制。
数据查询、代码编写等低风险任务设立成自动现实,资金操作、文献改换则必须东谈主工阐明,既能保证系统安全,又能提高责任流的现实效果。
在 OSWorld-Verified 基准测试中,GPT-5.4 完好意思了 75% 的奏凯率,卓绝东谈主类基准(72.4%) 的同期,大幅最先于前代 GPT-5.2 的 47.3% 水平,足以证明新模子在 PC 端任务场景中的实用和可靠 。
而在浏览器自动化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 测试中,依靠截图为主的顺序分辨得到 67.3% 和 92.8% 的奏凯率。
这就意味着,模子即便不探望网页底层架构,仅凭视觉信息即可完成复杂的网页交互任务,这主要归功于底层视觉感知能力的系统性提高。
传统多模态边界的提高相对较小,MMMU-Pro 视觉领路与推理测试中,模子的准确率从 79.5% 提高至 81.2%;但对于结构化信息的识别能力则显赫提高,模子在 OmniDocBench 文档领会基准测试中的平均缺欠率从 0.140 降至 0.109 。
也等于说,模子更善于处理复杂的 PDF、扫描文档等责任环境中常见的文献类型,不会像当年相似一遭受表格和插图就无法可想。
针对高密度的界面和致密操作的需求,GPT-5.4 新增的“original”图像输入级别因循最高 1024 万像素的全保真感知。
笔据用户反映,模子在处理企业级 ERP 系统、财务报表或工程运筹帷幄软件等复杂界面时,高分辨率模式下的界面元素定位准确率和点击操作奏凯率齐有显赫提高。
03 本体测试:操作系统之战,从一张崇高入场券初始在这份官方先容中,OpenAI 试图用精深基准测试的跑分收尾和驰名机构的专科评价来证明模子能力之重大。
尽管东谈主们精深不太信任基准测试的分数,但几项本体测试的收尾却证明了 OpenAI 所言非虚。
最先是 Artificial Analysis 的评测榜单,如料想一般,智能进度、编码能力、代理能力同期登顶:
若是这还不及够具有劝服力,那还不错望望 X 平台上的一项轮廓性测试:
原视频贯串:https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ
这是 X 平台上用户 @Angaisb_ 用 GPT-5.4 编写的 Minecraft 游戏,岂论是主视角的活动逻辑(驰驱、跳动、搭建),照旧游戏中方块的材质和好意思不雅进度,险些齐无可抉剔。
一个 demo 中展示出的内容,一经与 Minecraft 初期版块的质料进出无几。
由此可见,GPT-5.4 的功能是实打实的重大,也如实具备异常高的本体价值。
但俗语说得好,一分钱一分货,如斯重大的功能当然意味着极其喜悦的用度。
比拟 GPT-5.2,价钱涨幅异常惊东谈主,致使有效户在模子刚发布后的几个小时内默示,只是是打了个呼叫问了个问题,几百好意思元就不翼而飞了 。
如斯重大的能力和喜悦的订价,似乎与 OpenAI 官方界说的“能力溢出”有些鬻矛誉盾。
如今,OpenClaw 带动了 token 本钱极其便宜的国产大模子爆火,GPT 系列居品一经跌出使用量排名榜的前十,为何 OpenAI 还敢给 GPT-5.4 定下如斯高的价钱?
算力资源的垂危当然不必多说,但更深层的谜底约略藏在 OpenAI 近期交易化计谋的机密转向之中。
据悉,OpenAI 正在缩减 ChatGPT 哄骗内的径直购买决策,不再将聊天界面看成闭环往来的中枢场景,而是优先因循外部哄骗处理购买活动 。
这标明,OpenAI 正在从“径直面向消费者变现”转向“通过生态环境辗转赢利”。
OpenAI 将 GPT-5.4 定位为专科的基础设施,通过能力溢价筛选出高价值的客户;而等闲用户的变现需求,则交给 Notion、Cursor 等集成 ChatGPT 能力的第三方生态来邻接,无需径直承担喜悦的 API 本钱即可通过协调伙伴的居品辗转体验模子能力 。
而熟悉桌面智能代理的一又友可能会介怀到,GPT-5.4 的原生谋略机操作能力其实与 OpenClaw 的念念路高度相似:AI 需要看懂界面、操作软件、完成任务。
不外,GPT-5.4 更进一步,让用户跳过下载安设和配置底层大模子等无法不详的要道,径直体验“开箱即用”,试图取代当下这款最潮水的智能代理居品 。
但这并非易事。若要取代 OpenClaw,OpenAI 要么贬责 Agent 代理快速破钞 token 的问题,要么责问 token 本钱。而现在看来,前者的但愿会更大一些。
总体来看,OpenAI 的选择一经十分明显:用高订价筛选高价值客户,用生态协和洽无门槛居品秘密群众阛阓,用效果优化证明“贵有贵的意思意思”。
但对于等闲用户来说,最佳的计谋仍然是:保握怜惜、感性评估、按需选择。不必急于径直购买高价 API,极致的性价比才是 Agent 时间的目的。
联系词,咱们最不成漠视阿谁正在发生的、静暗暗的更动:OpenAI正在打造的,是一个以“Computer-Use”为中枢,整合了长高下文、器具调用、推理与编码能力的“AI操作系统”。
当这个“操作系统”镇定熟习,今天对于价钱和OpenClaw的照应,齐将只是历史的注脚。寰宇还在为某一款哄骗的爆火而狂欢开云体育(中国)官方网站,但信得过的操作系统之战,一经打响了。
