AI 周报 | GPT-5.4 来了，Coding Agent 开战

本周（3月2日—8日）可能是 2026 年迄今最密集的一周。GPT-5.4 在周三正式发布，原生支持计算机操控、百万 token 上下文，加上 Thinking 推理模式，让 AI 编程工具领域瞬间进入紧急状态——Cursor 公开宣布「战时状态」，Claude Code 200 美元订阅消耗约 5000 美元算力成本的消息同步流出，说明 Anthropic 在用极高补贴换市场份额。

在模型层面，本周同样是开源生态爆发的节点：vLLM v0.17.0 集成 FlashAttention 4，Google 发布 Gemini 3.1 Flash-Lite，Karpathy 开源 autoresearch 自动化研究框架，以及 SGLang 在 Blackwell Ultra GB300 上实现 25 倍推理吞吐提升。与此同时，Qwen 技术负责人林俊阳离职，OpenAI 推理研究员 Max Schwarzer 加入 Anthropic，人才流动信号值得持续关注。

本周核心判断：GPT-5.4 的发布将 AI 编程工具竞争从「哪个产品更好用」推进到「哪家公司能持续补贴亏损更久」。Cursor 面临 Claude Code 的真正威胁，但企业客户切换路径漫长，真正的冲击或在半年后显现。开源模型性能快速收窄闭源差距，推理基础设施正在完成量的跃迁。

187

本周资讯总量

核心主题板块

GPT-5.4

本周最大事件

25x

SGLang Blackwell 推理提升

Opus 4.6 发现 Firefox 漏洞

$5000

Claude Code $200/月真实成本

产品发布47

大模型38

观点25

研究22

行业20

企业动态12

活动10

机器人5

芯片4

人物4

01 / 08

GPT-5.4 正式发布：Thinking 推理、百万上下文、原生计算机操控

3月5日，OpenAI 发布 GPT-5.4，Thinking 模式和 Pro 版本同步上线，标志着推理、编程、Agent 能力首次整合进统一旗舰模型。

03-05

OpenAI：GPT-5.4 正式发布，推理、编程、智能体能力全面整合

GPT-5.4 Thinking 和 GPT-5.4 Pro 现已在 ChatGPT、API 和 Codex 中推出，将推理、编程和 Agent 工作流整合为统一的前沿模型。这是 OpenAI 首个原生支持电脑操控的通用模型，在 OSWorld 桌面操控测试中以 75% 成功率超越人类（72.4%）。

@OpenAI · @sama 产品发布原文

03-05

Sam Altman：GPT-5.4 支持 100 万 token 上下文和原生计算机操控

Altman 介绍 GPT-5.4 支持百万 token 上下文，具备原生计算机操控能力，可在生成过程中实时调整方向。投行建模得分从 68.4% 跃升至 87.3%，GPT-5.3 Instant 幻觉率降低近 27%。

@sama 大模型原文

03-05

OpenAI：GPT-5.4 支持中途打断和实时引导，新增 /fast 快速模式

GPT-5.4 用户可在思考过程中随时打断并调整方向，token 更少、速度更快。Sam Altman 额外提到新增 /fast 快速模式，认为用户会喜欢这一功能。本周 Android 和网页端上线，iOS 即将跟进。

@OpenAI · @sama 产品发布原文

03-05

Cursor / Perplexity / Replicate 同步接入 GPT-5.4

Cursor 宣布 GPT-5.4 已上线其编辑器，在 Cursor 内部基准测试中排名第一，称该模型「比此前版本更自然、更主动」。Perplexity 面向 Pro/Max 用户开放，Replicate 上线 GPT-5.4 Thinking 支持百万 token 上下文。

@cursor_ai · @perplexity_ai · @replicate 产品发布

03-06

宝玉：GPT-5.4 初体验——写作和过度思考仍与 Opus 4.6 有差距

宝玉分享 GPT-5.4 使用感受：写作虽有进步但不及 Opus 4.6，存在过度思考和自作主张问题，配图时未经确认就自行设置风格和版本。这与 Altman 「他最喜欢交谈的模型」的描述形成对照。

@dotey 观点原文

03-03

GPT-5.3 Instant 详解：减少说教感、幻觉率降低 27%

宝玉拆解 GPT-5.3 Instant 三大改进：不再过度拒绝和免责、联网搜索从堆链接变为筛选整合、高风险领域幻觉率降低近 27%，面向所有 ChatGPT 用户上线。

@dotey 产品发布原文

「在知识工作、网页搜索和电子表格处理方面大幅提升，也是我最喜欢交谈的模型，我们在模型个性塑造上终于走在了正确方向。」——Sam Altman

02 / 08

Claude Marketplace + Opus 4.6 安全能力：Anthropic 拓展生态护城河

Anthropic 本周推出企业采购平台 Claude Marketplace，同步披露 Opus 4.6 两周发现 Firefox 22 个安全漏洞，CEO Dario 发布重要公开声明。

03-06

Claude：推出 Claude Marketplace 企业级 AI 工具采购平台

Anthropic 推出 Claude Marketplace，已有 Anthropic 消费承诺的企业可将额度用于 GitLab、Replit、Snowflake 等合作伙伴的 Claude 驱动解决方案，帮助企业统一 AI 支出管理，目前处于限量预览阶段。

@claudeai · @AnthropicAI 产品发布原文

03-06

Replit 入驻 Claude Marketplace，企业 AI 采购整合加速

Replit 宣布上线 Claude Marketplace，企业团队可通过 Anthropic 现有消费承诺直接使用 Replit，实现 AI 支出合并管理和简化采购流程，成为首批入驻合作伙伴之一。

@Replit 企业动态原文

03-06

Anthropic 与 Mozilla 合作：Opus 4.6 两周发现 Firefox 22 个安全漏洞

Anthropic 与 Mozilla 合作测试 Claude 的安全漏洞发现能力，Opus 4.6 在两周内发现 22 个漏洞，其中 14 个为高危，占 Mozilla 2025 年修复的高危漏洞总量的五分之一，展示了前沿 AI 在软件安全领域的世界级能力。

@AnthropicAI 大模型原文

03-06

Anthropic：前沿模型已具备世界级漏洞发现能力，呼吁加强软件安全

Anthropic 发布研究报告指出，前沿 AI 模型在漏洞发现方面已达到世界级水准，但目前利用漏洞的能力尚弱，警告这种差距不会持续太久，敦促开发者加倍重视软件安全。

@AnthropicAI 研究原文

03-06

Claude 启动全球社区大使计划，面向全球开放申请

Claude 推出社区大使计划，邀请全球各地的开发者组织本地 Meetup、连接开发者社区，不限背景和地区，进一步扩大 Anthropic 开发者生态。

@claudeai 产品发布原文

03-04

Anthropic CEO Dario：拒绝与特朗普政府「政治站队」，批评 OpenAI 五角大楼合作

Anthropic CEO 达里奥在内部备忘录中指出公司与特朗普政府关系紧张源于拒绝政治站队，批评 OpenAI 高管向特朗普捐款 2500 万美元，并称 OpenAI 的五角大楼安全承诺为「安全剧场」。

@AnthropicAI · @dotey 企业动态原文

Marketplace 合作伙伴：GitLab · Replit · Snowflake

Firefox 漏洞：22 个（14 高危）

占 Mozilla 2025 年高危修复总量：1/5

03 / 08

Coding Agent 军备竞赛：Cursor 战时状态、Claude Code 暴力补贴

本周 AI 编程工具领域激烈程度超出预期：Cursor 宣布战时状态，Claude Code 披露成本结构，OpenAI Codex 支持 Windows，双方都在快速迭代。

03-07

Forbes：Cursor 进入「战时状态」，Opus 4.5 威胁其核心编辑器定位

Forbes 深度报道 Cursor 内部将当前局势定义为「战时状态」。Anthropic Opus 4.5 的编程能力已强到开发者无需逐行审查代码，可直接向 Agent 下达高层指令获取完整功能模块，从根本上挑战了 Cursor 作为「程序员协作编辑器」的定位。

@dotey 行业原文

03-07

宝玉：Cursor 企业营收占比升至 60%，但 Claude Code 真正冲击或在半年后

Cursor 个人订阅利润率为负，企业套餐为正。企业客户占比从 13.6% 升至约 60%，但企业切换工具流程漫长，Claude Code 的真正冲击可能在半年至一年后显现。

@dotey 观点原文

03-07

宝玉：Claude Code 200 美元订阅实际消耗约 5000 美元算力

据 Forbes 报道，Cursor 估算 Claude Code 的 200 美元月订阅可能消耗高达 5000 美元算力成本（去年估算为 2000 美元），意味着 Anthropic 正在以极高的补贴力度推广 AI 编程工具。

@dotey 大模型原文

03-04

Cursor 正式登陆 JetBrains IDE，通过 Agent Client Protocol 接入

Cursor 宣布通过 Agent Client Protocol（ACP）正式支持 JetBrains 系列 IDE，开发者现可在 IntelliJ、PyCharm 等环境中使用 Cursor 的 AI 能力，进一步扩大覆盖范围。

@cursor_ai 产品发布原文

03-05

Cursor：推出 Automations 功能，打造常驻运行的 AI Agent

Cursor 发布 Automations 新功能，支持构建始终在线的 AI Agent，可持续执行自动化任务，进一步强化其 AI 编程助手定位。

@cursor_ai 产品发布原文

03-07

Claude Code：新增 /loop 定时任务命令，AI 自动帮你盯活儿

Claude Code 发布 /loop 命令，支持按固定间隔自动执行指令，可用于监控 PR、自动修复构建错误、Slack 消息汇总等，最长持续三天，关闭终端即失效。宝玉同时开源 Claude Code 翻译 Skill，支持分块并行翻译。

@dotey 产品发布原文

03-04

OpenAI Codex App 正式支持 Windows，自研代码托管平台欲替代 GitHub

OpenAI Codex App 登陆 Windows，支持 PowerShell、Git Bash 和 WSL，构建原生沙盒机制。据 The Information 报道，OpenAI 同步在开发代码托管平台以替代 GitHub，起因是工程师频繁遭遇 GitHub 服务中断。

@dotey 产品发布原文

03-06

OpenAI 推出「Codex for Open Source」，向开源维护者免费提供 ChatGPT Pro

OpenAI 将 Codex 开源基金升级，向核心开源项目维护者免费提供六个月 ChatGPT Pro 账号及 API 额度，帮助他们在日常开发、代码审查和 Issue 处理中使用 AI。

@dotey 大模型原文

04 / 08

开源模型生态：Qwen 3.5、Gemini 3.1 Flash-Lite、vLLM v0.17.0

本周开源模型生态持续扩张：vLLM 发布大版本、Google 更新 Flash-Lite 性能超越上代、Qwen 系列量化版登陆 LM Studio 和 Ollama。

03-07

vLLM v0.17.0 大版本发布：集成 FlashAttention 4 和 Qwen3.5

vLLM 发布 v0.17.0，包含 699 个提交和 272 位贡献者。主要更新：FlashAttention 4 集成、Qwen3.5（GDN 门控增量网络）支持、Model Runner V2 成熟化（管道并行/Eagle3+CUDA 图）、新增 --performance-mode 参数、弹性专家并行及量化 LoRA 适配器加载。

@vllm_project 产品发布原文

03-06

vLLM：发布 Triton 统一注意力后端，800 行代码跨 NVIDIA/AMD/Intel

vLLM 推出基于 Triton 的统一注意力后端，仅约 800 行代码即可在 H100 上匹配 SOTA 性能，在 MI300 上比此前实现快约 5.8 倍，解决跨 GPU 平台维护难题。

@vllm_project 研究原文

03-03

Google DeepMind：Gemini 3.1 Flash-Lite 发布，性能超越 2.5 Flash，速度更快价格更低

Google DeepMind 发布 Gemini 3.1 Flash-Lite，性能超越上一代 2.5 Flash，新增思考级别功能，可根据不同任务灵活调节推理深度，输出速度提升 45%，支持 UI 生成、仪表盘和模拟等复杂任务。

@GoogleDeepMind 大模型原文

03-09

vLLM：在 NVIDIA Jetson 实现全本地 AI 助手，零云端依赖

vLLM 展示在 NVIDIA Jetson AGX 上运行 MoE 模型 Nemotron 3 Nano 30B 的教程，所有推理完全在设备端完成，无需任何云 API，展示边缘推理的成熟路径。

@vllm_project 大模型原文

vLLM v0.17.0：699 个提交，272 位贡献者

Triton 后端：AMD MI300 提速 5.8x

Gemini 3.1 Flash-Lite：输出速度 +45%

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或