研究 @claudeai 2026-05-28

Claude Code 新增动态工作流（研究预览）

Claude Code 推出动态工作流（research preview），面向最难任务由 Claude 自行编排。

TL;DR · 评测解读

Claude Code 动态工作流让 AI 自主编排复杂任务，但作为研究预览，其评测方法存在严重透明度不足——缺乏客观基准测试和可控对比实验，目前无法判断是真实突破还是营销噱头。

深度解读

动态工作流（Dynamic Workflows）是 Claude Code 的一项新能力，允许 Claude 在面对「最难任务」时自动规划并编排多步骤操作。Anthropic 声称这能显著提升 AI 在复杂、长尾场景下的表现。但关键问题是：「最难任务」的边界如何定义？谁来评判成功？

Anthropic 此次发布属于典型的 announcement-only 宣传，存在以下几个可质疑点：

无公开 Benchmark：没有第三方评测集或标准任务对比数据（如 SWE-bench、AgentBench 等成熟基准）。无法与其他 Agent 框架（Devin、Gemini 2.5 Flash Thinking）做横向比较。
自我引用风险：「研究预览」标签暗示这是内部实验，但未披露样本量、任务类型分布、成功率统计。Anthropic 自述的「最难任务」表现提升，缺乏可独立验证的证据。
Cherry-picking 嫌疑：展示案例极可能是精选最优结果，而非随机采样或平均表现。真实用户遇到的

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。