全部 今日 本周 本月
2026-03-09

Karpathy:autoresearch 自动调参 3 天,GPT-2 训练时间缩短 11%

Karpathy 分享 autoresearch 自动调优实验,让 AI 自主寻找改进方案 2 天,发现约 20 项改进均可叠加迁移到更大模型,GPT-2 训练时间从 2.02 小时降至 1.80 小时。

研究
@karpathy 阅读 →

Anthropic:Claude Code 推出 Code Review 功能,AI Agent 团队自动审查 PR

Anthropic 发布 Claude Code 新功能 Code Review,PR 提交后自动派出多个 Agent 并行查找 bug、交叉验证过滤误报并按严重程度排序。内部测试数月,有实质审查意见的 PR 从 16% 提升至 54%,误判率不到 1%。

产品发布
@claudeai 阅读 →

AK:RoboMME——机器人通用策略的记忆能力基准测试

新论文 RoboMME 提出针对机器人通用策略的记忆能力基准,系统评估机器人在长期任务中的记忆理解和运用能力。

研究
@_akhaliq 阅读 →

Anthropic 推出 Claude Code Review:多 Agent 并行查 Bug,有效评审率从 16% 飙升至 54%

Anthropic 发布 Claude Code Review(Beta),因内部代码产出增长 200% 导致审查瓶颈而研发。系统自动派多个 Agent 并行搜索 Bug 并交叉验证,输出高信噪比总结 + 行内标注。内部数月实测:含实质性评审意见的 PR 从 16% 升至 54%,错误标记不到 1%,1000+ 行大 PR 中 84% 能发现问题。按 token 计费,平均每次 $15-25,Team 和 Enterprise 可用。信源:@claudeai @dotey

产品发布
@claudeai 阅读 →

LlamaIndex:Surreal Slides 让 AI 理解和搜索演示文稿

基于 LlamaParse 构建的 Surreal Slides,可将 PPT 解析为结构化数据并存入 SurrealDB,支持自然语言搜索整个演示文稿库。

产品发布
@llama_index 阅读 →

AK:KARL 论文——通过强化学习构建知识代理

新论文 KARL(Knowledge Agents via Reinforcement Learning)发布,探索用强化学习训练知识代理的方法。

研究
@_akhaliq 阅读 →

ElevenLabs:将在 SXSW 首映 AI 语音纪录片《11 Voices》

ElevenLabs 将在 SXSW 首映纪录片《11 Voices》,讲述失声者用 AI 语音复原技术讲述自己故事的经历,是其帮助百万人重获声音计划的一部分。

行业
@elevenlabsio 阅读 →

AK:MatAnyone 2 视频抠图模型上线 Hugging Face

MatAnyone 2 发布,通过学习质量评估器扩展视频抠图能力,论文和在线 Demo 已上线 Hugging Face。

研究
@_akhaliq 阅读 →

Andrej Karpathy:吐槽 Codex 不支持 autoresearch 循环模式

Karpathy 指出 OpenAI Codex 目前无法配合 autoresearch 使用,并表示不喜欢无头模式运行 Agent,更希望在 tmux 中交互式运行以便随时介入。

观点
@karpathy 阅读 →

Replit 预告即将推出新产品

AI 编程平台 Replit 发布预告视频,暗示正在筹备令人兴奋的新产品,具体细节尚未公布。

产品发布
@Replit 阅读 →

Google 二月 AI 回顾:Nano Banana 2、Lyria 3、Gemini 3.1 Pro 齐发

Google 发布二月 AI 成果汇总,包括结合 Pro 能力与 Flash 速度的 Nano Banana 2、音乐生成工具 Lyria 3,以及最强问题解决模型 Gemini 3.1 Pro。

产品发布
@Google 阅读 →

NVIDIA GTC 2026 下周开幕:黄仁勋 3 月 16 日主题演讲聚焦 Agent 推理

NVIDIA 宣布 GTC 2026 主题演讲将于 3 月 16 日在 SAP Center 举行,CEO 黄仁勋将揭晓 AI 领域下一步重大进展,据悉将聚焦 Agent 推理的未来方向。信源:@nvidia @swyx

活动
@nvidia 阅读 →

Runway 推出 Characters:可定制的实时智能数字人

Runway 发布 Characters 产品,支持实时智能对话的数字人,可自定义风格、知识库和语音,通过 API 集成到任何应用和网站。

产品发布
@runwayml 阅读 →

swyx:AI 工程开源项目 acquihire 价格达每人 1000 万-1 亿美元

Latent Space 主理人 swyx 指出,当前 AI 工程领域的开源项目 acquihire 估值惊人,不需要商业模式或融资,只需构建有价值的项目。

观点
@swyx 阅读 →

OpenAI 宣布收购 Promptfoo,强化 AI Agent 安全测试能力

OpenAI 收购开源 AI 安全测试工具 Promptfoo,将其整合至 OpenAI Frontier 平台。Promptfoo 将保持开源并继续服务现有客户。

企业动态
@OpenAI 阅读 →

Figure AI 展示 Helix 02 机器人:全自主整理客厅

Figure AI 发布 Helix 02 演示视频,机器人可完全自主整理客厅,目标是让用户出门后家中自动复原至理想状态。

机器人
@Figure_robot 阅读 →

Elon Musk:Grok Imagine 推出「延伸视频」功能,V1.5 将带来重大升级

xAI 的 Grok Imagine 图像生成新增「延伸视频」功能,可将静态图片扩展为完整故事视频。Musk 表示当前仅为 1.0 版本,V1.5 将带来重大升级。信源:@elonmusk

大模型
@elonmusk 阅读 →

海螺 AI:首场马来西亚 AI 创作工坊 4 月举办

MiniMax 旗下海螺 AI 宣布 4 月 18 日在吉隆坡举办首场海外工作坊,面向创作者和电影人,体验前沿 AI 视觉创作工具,标志着其东南亚市场拓展。

活动
@Hailuo_AI 阅读 →

Latent Space:Devin 代码智能体架构曝光,使用数十个模型组

swyx 透露 Devin 大脑使用数十个模型组并持续评估替换,每几个月完全重写一次。引用 Sam Altman 建议构建能从模型持续进步中受益的公司,认为云端 Agent 正在真正发挥作用。

大模型
@swyx 阅读 →

Latent Space:多家 AI 实验室模型信息接连泄露

AI 播客 Latent Space 主播 swyx 列出近期多个模型版本号,感叹实验室泄密已成各大 AI 实验室的共同遭遇。

行业
@swyx 阅读 →

vLLM:在 NVIDIA Jetson 上实现全本地 AI 助手,零云端依赖

vLLM 展示在 NVIDIA Jetson AGX 上运行 MoE 模型 Nemotron 3 Nano 30B 的教程,所有推理完全在设备端完成,无需任何云 API。

大模型
@vllm_project 阅读 →
2026-03-08

Andrej Karpathy:推荐 TinyStories 数据集训练超小模型

Karpathy 推荐在 Apple Silicon 上使用 TinyStories 数据集训练极小语言模型,并分享了他认为最干净的数据集版本,称其为小模型训练的理想选择。

大模型
@karpathy 阅读 →

宝玉:X 平台封禁 Chrome CDP 协议,无法通过 CDP 登录

开发者宝玉发现 X/Twitter 已封禁 Chrome DevTools Protocol 登录方式,影响依赖 CDP 进行自动化操作的开发者工具链。

行业
@dotey 阅读 →

Elon Musk:X 平台正积极打击 AI 生成的虚假内容

Musk 表示 X 团队正在积极应对 AI 生成内容泛滥的问题,称对抗如海啸般涌来的 AI 内容是一场艰难战役。

行业
@elonmusk 阅读 →

Elon Musk:AI 投资不到 10 万亿美元都不算认真

Musk 回应 AI 基础设施投资讨论时表示,10 万亿美元才是 AI 投资的起步门槛,暗示当前行业投入规模仍远远不够。

观点
@elonmusk 阅读 →

Karpathy:autoresearch 两天 650 次实验,GPT-2 训练时间缩短 11%

Karpathy 的 autoresearch 系统在两天内完成约 650 次实验,发现约 20 项改进,全部可叠加并迁移至更大模型。GPT-2 训练时间从 2.02 小时降至 1.80 小时(缩短 11%),nanochat 即将刷新排行榜。信源:@karpathy

研究
@karpathy 阅读 →

Supabase:Brevo 用 MCP 协议连接 CRM 与 AI Agent 构建智能工作流

Brevo 收入运营团队通过 Supabase MCP 将 CRM 与 Dust AI Agent 连接,构建了 3 个 AI 工作流。基于 Postgres 架构新增场景只需添加新表和更新提示词,无需重新设计。

产品发布
@supabase 阅读 →

Karpathy:传统界面让人操作按钮的时代即将终结

Karpathy 指出企业仍在用传统界面指导用户点击和导航,但这在 Agent 时代显得多余——为什么要告诉我该点哪里?请直接给我能复制粘贴给 Agent 的内容。

观点
@karpathy 阅读 →

Karpathy:自动研究下一步应像 SETI@home 一样大规模协作

Karpathy 认为自动研究不应模拟单个博士生,而应模拟整个研究社区。当前代码同步推进单一研究方向,但原始仓库应作为种子,由多个 Agent 异步贡献不同研究方向的代码。

研究
@karpathy 阅读 →

宝玉:用 Claude Code Skill 实现一键自动化发布

开发者宝玉分享了基于 Claude Code Skills 构建的 baoyu-skills 自动发布工具,只需说「发布更新」即可自动完成 commit、changelog 生成和 tag 操作。

产品发布
@dotey 阅读 →