找回密码
 立即注册
首页 业界区 业界 刚刚,Claude Opus 4.6 和 GPT-5.3-Codex 同时炸场!AI ...

刚刚,Claude Opus 4.6 和 GPT-5.3-Codex 同时炸场!AI 编程要变天了

阕阵闲 2026-2-6 11:35:00
大家好,我是程序员鱼皮。
今天凌晨,AI 圈又双叒炸了。Anthropic 和 OpenAI 几乎同时发布了自家的最新大模型 —— Claude Opus 4.6 和 GPT-5.3-Codex,中门对狙,火药味十足。
1.png

这次两家是真往编程和实际工作能力上卷了,不是那种 “跑分升了 2 个点” 就发篇博客的敷衍更新。
下面我带大家快速了解一下,这两个模型到底更新了什么?对我们程序员和 AI 玩家来说有什么用?
 
Claude Opus 4.6:更聪明、更能干、更持久

先说 Anthropic 这边。Claude Opus 4.6 是目前 Claude 家族最强的模型,之前用 Claude Opus 4.5 编程就已经让我感觉 “AI 写代码无所不能” 了,而这次的 Opus 4.6 在多项评估中均处于最先进水平,包括智能编码、多学科推理、知识工作和智能搜索等。
光看这个跑分我就贼激动了!
2.png

实际上手后,我最直观的感受就是:干活更靠谱了
具体更新了这些:
1)编程能力大幅提升:Opus 4.6 能更好地在大型代码库中工作,调试和代码审查能力增强,写完代码还能自己检查错误。
我实测了一波,让之前的 Opus 4.5 和新出的 Opus 4.6 同时开发一个「聚合搜索引擎」项目:
  1. 请你帮我开发一个聚合搜索网站,包含完整的前端和后端,能够同时从多个不同的搜索引擎搜索和聚合结果。<br>应该先做 MVP 最小可行产品,整个过程不需要向我确认、不需要我提供 API Key,你必须确保功能正常可用。
复制代码
3.png

几分钟后,二者都完成了任务:
4.png

但是对比一下实际搜索效果,Opus 4.5 完败,看到这我就放心了,以后我用 AI 编程估计 Bug 更少了~
5.png

2)100 万 token 上下文窗口。Opus 系列第一次支持这么长的上下文,简单来说就是你可以一次性给它丢一大堆文件和代码,它都能记住并理解,不会像以前那样聊着聊着就失忆了。
这也是我最最最期待的特性,复杂的前后端项目也可以在同一对话框中一把梭了!不用来来回回总结上下文和新开对话框。
赣,准备嘎嘎烧 Tokens 了。
3)128k 输出 token。输出长度翻倍,意味着 Claude 可以一次性生成更长的代码和文档,不用再拆成好几次请求了。
4)自适应思考。以前开发者只能手选开启或关闭深度推理,现在 Claude 会自动判断这个问题需不需要深度思考。简单问题秒回,复杂问题慢慢想,智能调节,省时省钱。
5)上下文压缩。以前跑长任务的时候,AI 经常会撞到上下文长度的天花板。现在 Claude 能自动压缩和总结之前的对话内容,让长时间运行的任务不会中途翻车。搭配 100 万 token 上下文,不敢想象有多持久!
6)Claude Code 支持多智能体协作。你可以同时启动多个 AI Agent 并行工作,比如让几个 Agent 同时审查代码库的不同部分,效率直接翻倍。
7)Claude in Excel 大升级。现在能处理更复杂的长时间任务,支持数据透视表、图表修改、条件格式、数据验证等,还能一次性处理多步骤操作。
6.png

8)Claude in PowerPoint 上线。能读取你已有的模板、字体和母版,保持品牌风格一致,然后直接帮你生成完整的 PPT。
7.webp

大家对 Opus 4.6 也是一致好评,不少早期测试的公司都表示 “用了回不去”,Cursor 官方说 Opus 4.6 是他们内部长任务测试中的最强模型,Replit 说它的任务拆解和并行规划能力有了巨大飞跃。
 
GPT-5.3-Codex:OpenAI 的编程杀手锏

再看 OpenAI 这边。这次发布的 GPT-5.3-Codex,剑指 最强编程 Agent,而且不只是写代码,还能像你的同事一样边干活边和你沟通。
相比 Claude 官方连发好几个帖子介绍自家新模型,OpenAI 官方这边则低调不少。Sam Altman 亲自在 X 上喊话:
8.webp

来看看具体有什么:
1)编程跑分全面领先。SWE-Bench Pro 57% 和 TerminalBench 2.0 77%,编程相关基准都创了新高。尤其是 OSWorld(测试 AI 在真实桌面环境中完成任务的能力)直接从上一代的 38.2% 飙到 64.7%,这个提升幅度相当炸裂。
9.png

2)速度更快、更省钱。完成同样的任务,token 消耗量不到上一代(5.2-Codex)的一半,而且每个 token 处理速度还快了 25%。又快又省,这才是实实在在的体验提升。
3)边干活边汇报。以前你丢一个任务给 AI,只能干等结果。现在 GPT-5.3-Codex 会在工作过程中实时告诉你它在做什么、做到哪了,你随时可以插嘴调整方向,就像真的在和一个同事协作一样。
4)超强的前端开发能力。官方直接展示了让它做赛车游戏和潜水游戏的效果,完整度高得离谱,有多个地图、道具系统和完整的游戏逻辑。
10.png

生成普通网页时 AI 也更懂你的意图了,默认就能给你做出功能更丰富、设计更合理的页面。
5)电脑操作能力增强。不只是写代码,它还能像人一样操作电脑完成各种任务,比如做 PPT、分析数据、处理表格,把编程 Agent 的边界扩展到了全能打工 Agent。
6)自己训练自己。OpenAI 团队说 GPT-5.3-Codex 是第一个 参与了自身创造 的模型。团队用它的早期版本来调试训练过程、管理部署、分析测试结果。也就是说,AI 在加速 AI 自身的进化,以后的进化速度肯定会越来越快。
7)网络安全能力大幅增强。这是第一个被 OpenAI 归类为高能力网络安全模型的版本,能主动发现代码漏洞。OpenAI 同时承诺投入 1000 万美元 API 额度支持网络防御研究。
 
我的看法

这次两家巨头同时发布新模型,互相贴脸开大,对我们用户来说是好事。可以看到,这两个模型都在往 实用方向 猛卷,是真的想让你日常工作中用得上。
这两个大模型应该如何选择呢?
简单对比一下:

  • Claude Opus 4.6 是六边形战士,编程、办公、研究样样行,特别是在 Excel、PowerPoint 这些办公场景里做了很深的整合。
  • GPT-5.3-Codex 把编程能力拉满,在代码生成、任务执行和人机协作上打出了差异化优势。
不过我估计网络和价格就已经劝退一大波国内用户了,如果你只是日常学习、或者做做工具类小项目,也不必盲目追求国外的大模型。很快 DeepSeek V4 等一系列国产大模型应该就要出来了,期待一波~
 
更多编程学习资源


  • Java前端程序员必做项目实战教程+毕设网站
  • 程序员免费编程学习交流社区(自学必备)
  • 程序员保姆级求职写简历指南(找工作必备)
  • 程序员免费面试刷题网站工具(找工作必备)
  • 最新Java零基础入门学习路线 + Java教程
  • 最新Python零基础入门学习路线 + Python教程
  • 最新前端零基础入门学习路线 + 前端教程
  • 最新数据结构和算法零基础入门学习路线 + 算法教程
  • 最新C++零基础入门学习路线、C++教程
  • 最新数据库零基础入门学习路线 + 数据库教程
  • 最新Redis零基础入门学习路线 + Redis教程
  • 最新计算机基础入门学习路线 + 计算机基础教程
  • 最新小程序入门学习路线 + 小程序开发教程
  • 最新SQL零基础入门学习路线 + SQL教程
  • 最新Linux零基础入门学习路线 + Linux教程
  • 最新Git/GitHub零基础入门学习路线 + Git教程
  • 最新操作系统零基础入门学习路线 + 操作系统教程
  • 最新计算机网络零基础入门学习路线 + 计算机网络教程
  • 最新设计模式零基础入门学习路线 + 设计模式教程
  • 最新软件工程零基础入门学习路线 + 软件工程教程

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

2026-2-8 05:21:11

举报

喜欢鼓捣这些软件,现在用得少,谢谢分享!
2026-2-9 19:49:42

举报

懂技术并乐意极积无私分享的人越来越少。珍惜
2026-2-11 04:31:02

举报

7 天前

举报

您需要登录后才可以回帖 登录 | 立即注册