人工智能行业最新动态
Karpathy 分享 autoresearch 自动调优实验,让 AI 自主寻找改进方案 2 天,发现约 20 项改进均可叠加迁移到更大模型,GPT-2 训练时间从 2.02 小时降至 1.80 小时。
Anthropic 发布 Claude Code 新功能 Code Review,PR 提交后自动派出多个 Agent 并行查找 bug、交叉验证过滤误报并按严重程度排序。内部测试数月,有实质审查意见的 PR 从 16% 提升至 54%,误判率不到 1%。
新论文 RoboMME 提出针对机器人通用策略的记忆能力基准,系统评估机器人在长期任务中的记忆理解和运用能力。
Anthropic 发布 Claude Code Review(Beta),因内部代码产出增长 200% 导致审查瓶颈而研发。系统自动派多个 Agent 并行搜索 Bug 并交叉验证,输出高信噪比总结 + 行内标注。内部数月实测:含实质性评审意见的 PR 从 16% 升至 54%,错误标记不到 1%,1000+ 行大 PR 中 84% 能发现问题。按 token 计费,平均每次 $15-25,Team 和 Enterprise 可用。信源:@claudeai @dotey
基于 LlamaParse 构建的 Surreal Slides,可将 PPT 解析为结构化数据并存入 SurrealDB,支持自然语言搜索整个演示文稿库。
新论文 KARL(Knowledge Agents via Reinforcement Learning)发布,探索用强化学习训练知识代理的方法。
ElevenLabs 将在 SXSW 首映纪录片《11 Voices》,讲述失声者用 AI 语音复原技术讲述自己故事的经历,是其帮助百万人重获声音计划的一部分。
MatAnyone 2 发布,通过学习质量评估器扩展视频抠图能力,论文和在线 Demo 已上线 Hugging Face。
Karpathy 指出 OpenAI Codex 目前无法配合 autoresearch 使用,并表示不喜欢无头模式运行 Agent,更希望在 tmux 中交互式运行以便随时介入。
AI 编程平台 Replit 发布预告视频,暗示正在筹备令人兴奋的新产品,具体细节尚未公布。
Google 发布二月 AI 成果汇总,包括结合 Pro 能力与 Flash 速度的 Nano Banana 2、音乐生成工具 Lyria 3,以及最强问题解决模型 Gemini 3.1 Pro。
NVIDIA 宣布 GTC 2026 主题演讲将于 3 月 16 日在 SAP Center 举行,CEO 黄仁勋将揭晓 AI 领域下一步重大进展,据悉将聚焦 Agent 推理的未来方向。信源:@nvidia @swyx
Runway 发布 Characters 产品,支持实时智能对话的数字人,可自定义风格、知识库和语音,通过 API 集成到任何应用和网站。
Latent Space 主理人 swyx 指出,当前 AI 工程领域的开源项目 acquihire 估值惊人,不需要商业模式或融资,只需构建有价值的项目。
OpenAI 收购开源 AI 安全测试工具 Promptfoo,将其整合至 OpenAI Frontier 平台。Promptfoo 将保持开源并继续服务现有客户。
Figure AI 发布 Helix 02 演示视频,机器人可完全自主整理客厅,目标是让用户出门后家中自动复原至理想状态。
xAI 的 Grok Imagine 图像生成新增「延伸视频」功能,可将静态图片扩展为完整故事视频。Musk 表示当前仅为 1.0 版本,V1.5 将带来重大升级。信源:@elonmusk
MiniMax 旗下海螺 AI 宣布 4 月 18 日在吉隆坡举办首场海外工作坊,面向创作者和电影人,体验前沿 AI 视觉创作工具,标志着其东南亚市场拓展。
swyx 透露 Devin 大脑使用数十个模型组并持续评估替换,每几个月完全重写一次。引用 Sam Altman 建议构建能从模型持续进步中受益的公司,认为云端 Agent 正在真正发挥作用。
AI 播客 Latent Space 主播 swyx 列出近期多个模型版本号,感叹实验室泄密已成各大 AI 实验室的共同遭遇。
vLLM 展示在 NVIDIA Jetson AGX 上运行 MoE 模型 Nemotron 3 Nano 30B 的教程,所有推理完全在设备端完成,无需任何云 API。
Karpathy 推荐在 Apple Silicon 上使用 TinyStories 数据集训练极小语言模型,并分享了他认为最干净的数据集版本,称其为小模型训练的理想选择。
开发者宝玉发现 X/Twitter 已封禁 Chrome DevTools Protocol 登录方式,影响依赖 CDP 进行自动化操作的开发者工具链。
Musk 表示 X 团队正在积极应对 AI 生成内容泛滥的问题,称对抗如海啸般涌来的 AI 内容是一场艰难战役。
Musk 回应 AI 基础设施投资讨论时表示,10 万亿美元才是 AI 投资的起步门槛,暗示当前行业投入规模仍远远不够。
Karpathy 的 autoresearch 系统在两天内完成约 650 次实验,发现约 20 项改进,全部可叠加并迁移至更大模型。GPT-2 训练时间从 2.02 小时降至 1.80 小时(缩短 11%),nanochat 即将刷新排行榜。信源:@karpathy
Brevo 收入运营团队通过 Supabase MCP 将 CRM 与 Dust AI Agent 连接,构建了 3 个 AI 工作流。基于 Postgres 架构新增场景只需添加新表和更新提示词,无需重新设计。
Karpathy 指出企业仍在用传统界面指导用户点击和导航,但这在 Agent 时代显得多余——为什么要告诉我该点哪里?请直接给我能复制粘贴给 Agent 的内容。
Karpathy 认为自动研究不应模拟单个博士生,而应模拟整个研究社区。当前代码同步推进单一研究方向,但原始仓库应作为种子,由多个 Agent 异步贡献不同研究方向的代码。
开发者宝玉分享了基于 Claude Code Skills 构建的 baoyu-skills 自动发布工具,只需说「发布更新」即可自动完成 commit、changelog 生成和 tag 操作。