AI 资讯

2026-07-27

多头潜在控制：统一LLM智能体决策接口

大语言模型作为智能体时，仅靠next-token预测难以实现可靠决策。该研究提出多头潜在控制机制，使模型能在推理时自主决定继续推理、调用更强模型、请求信息或调用工具。现有方法依赖输入侧路由，成本高且难维护。

Molt：代理强化学习的可扩展PyTorch原生训练框架

代理强化学习涉及持续的算法修改、新估算器、新管道阶段和rollout方案，在主流框架中每次改动都需贯穿trainer、分布式后端和rollout胶水层，成本由研究者承担。Molt是PyTorch原生训练框架，代码库紧凑清晰，研究者可全局掌握，AI助手可完整读取推理，实现端到端算法流程追踪和修改。

研究 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

2026-07-26

苹果智能眼镜因隐私顾虑推迟至 2027 年

据彭博 Mark Gurman 报道，苹果将智能眼镜（代号 N50）发布推迟，亮相预计移至 2027 年 WWDC，部分因重大隐私顾虑。团队将隐私列为首要，倾向端侧处理、不做人脸识别、录制不进 AI 训练，甚至考虑无摄像头版本，以避免 Meta 智能眼镜遭遇的隐私反弹。

硬件 AI 摘要 · 单一来源

彭博（据报道）阅读 →

0xwilliamortiz/openclaude-improved：任意运行，随处可用

任意运行，随处可用

大模型 AI 摘要 · 单一来源

GitHub Trending 阅读 →

Sakana AI 发布 Fugu-Ultra v1.1 + Claude Code 接口

Sakana AI 推出多智能体编排模型 Fugu 的 Claude Code 接口，可在 Claude Code 工作流中调度 Claude/Gemini/GPT 等前沿模型协同写码调试执行；同期 Fugu-Ultra v1.1 在 ProgramBench、Terminal Bench 2.1 上进一步提升，终端任务超过 Claude Fable 5 与 GPT-5.5。

产品发布 AI 摘要 · 单一来源

@SakanaAILabs 阅读 →

vLLM 发布 v0.26.0

vLLM v0.26.0 发布，含 411 次提交（212 位贡献者）：新增 Inkling 模型族全栈支持、DeepSeek-V4 专用路由内核与 fused topK（1.5–2x 提速）、分层 KV 卸载与对象存储分级、Rust 前端扩展（多模态音视频/工具解析）及 Transformers 5.13.0 集成。

产品发布 AI 摘要 · 单一来源

@vllm_project 阅读 →

2026-07-25

NAVER联手Brookfield与NVIDIA扩建韩国AI工厂

NAVER、Brookfield与NVIDIA宣布100亿美元合作(Brookfield出资至多90亿、NVIDIA投资10亿、NAVER补足余额)，将位于世宗GAK数据中心的NVIDIA DSX AI工厂从55兆瓦扩至200兆瓦，2028年完工，为韩美AI开发者提供产能级算力。

企业动态 AI 摘要 · 单一来源

@nvidia 阅读 →

SK集团与NVIDIA达成超5000亿美元AI合作

SK集团与NVIDIA签署意向书，宣布超5000亿美元AI基础设施合作：SK电讯将在韩国建设2吉瓦Vera Rubin DSX AI工厂(首座2027年上线)，SK海力士与NVIDIA长期共研下一代AI存储(含HBM)。

芯片 AI 摘要 · 单一来源

@nvidia 阅读 →

2026-07-24

agentacct：本地优先的编程Agent任务追踪仪表盘

追踪编程Agent执行详情与成本消耗，分解任务为工作步骤（工具使用、文件变更、测试运行、时间与token消耗）。支持Claude Code、Codex、OpenCode等平台，无需登录、无遥测。

大模型 AI 摘要 · 单一来源

GitHub Trending 阅读 →

Black Forest Labs 发布 FLUX 3 统一多模态模型

Black Forest Labs 发布 FLUX 3，单一流匹配架构联合处理图像/视频/音频并可扩展预测机器人动作，一次推理生成最长 20 秒带原生同步音轨的视频。首次进入具身智能（robotics variant 已在奥迪产线试用）。Video/Action 目前限量早期访问，尚无公开 API 与定价，Image 版本计划随后放出。

产品发布 AI 摘要 · 单一来源

Black Forest Labs 阅读 →

ReferTrack：用于具身视觉追踪的指代-追踪框架

具身视觉追踪（EVT）要求移动智能体仅通过机载视觉持续跟随自然语言描述的目标。ReferTrack 提出一种指代-追踪范式，使用单个前向摄像头实现具身追踪，先从图像中选取目标。

机器人 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

AREX：面向深度研究的递归自我改进智能体

深度研究需要智能体找到满足多个约束条件的答案，但发现答案成本高昂而验证成本较低。AREX 是一种递归自我改进（RSI）智能体，通过验证中间结果并利用部分验证状态引导后续优化。

研究 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

SANA-Video 2.0：结合线性注意力的高效视频生成模型

5B/14B规模的混合视频扩散Transformer，在单GPU上生成720p高质量视频，通过混合线性-Softmax注意力以3:1比例平衡线性复杂度和全秩token交互。

芯片 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

K12-KGraph：面向教育LLM的课程对齐知识图谱

现有K-12教育基准主要测试答题能力，忽视课程知识结构理解。K12-KGraph从人教版教材中提取覆盖中小学数理化生课程的课程对齐知识图谱。

大模型 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

Anthropic发布旗舰模型Claude Opus 5

Anthropic 7月24日发布新旗舰 Claude Opus 5：100万 token 上下文、支持 xhigh 推理档，并新增 low/medium/high 努力档位让用户在成本与能力间权衡；成为 Claude Max 默认、Pro 最强模型，价格与前代 Opus 4.8 持平。官方称在 Frontier-Bench、GDPval-AA 等编码/知识评测上刷新 SOTA。Cursor 等工具当日即接入。

大模型 AI 摘要 · 单一来源

@claudeai 阅读 →

2026-07-23

机器人基础模型公司 Genesis AI 洽谈 5 亿美元融资

据彭博，机器人基础模型公司 Genesis AI 正洽谈约 5 亿美元融资、估值约 30 亿美元，Premji Invest 有望领投，HSG/Northzone 洽谈跟投。Genesis AI 2025 年 7 月以 1.05 亿美元种子轮出场，2026 年 6 月发布可推理适应任务的 Eno 机器人，本轮显示具身 AI 赛道投资加速。

融资 AI 摘要 · 单一来源

彭博（据报道）阅读 →

AI 芯片新贵 Etched 完成 3 亿美元 C 轮，估值 103 亿美元

专注 Transformer 专用推理芯片的 Etched 于 7 月 23 日完成 3 亿美元 C 轮，Sequoia 领投，a16z/SK Hynix/Jane Street 等跟投，估值 103 亿美元（较去年 12 月的 50 亿翻倍）。其 Sohu ASIC 硬编码 Transformer 架构，号称推理效率远超通用 GPU，已锁定超 10 亿美元客户订单，首批机架计划 2026 年夏发货。

融资 AI 摘要 · 单一来源

@TechCrunch 阅读 →

Anthropic升级Claude语音模式接入Opus/Sonnet

Anthropic 7月23日升级Claude语音模式：首次支持Opus与Sonnet(此前仅Haiku),可对话中切换模型、接入connectors工具,语调更自然、延迟更低、语言更多。以beta在桌面/移动/网页全端推送,付费用户默认沿用上次文本对话所用模型。

产品发布 AI 摘要 · 单一来源

@claudeai 阅读 →

ChatGPT语音登陆桌面端(GPT-Live全双工)

OpenAI 7月23日把最先进语音带上ChatGPT桌面端(Mac/Windows)：由GPT-Live驱动、全双工可边听边说，用户能在Chat/Work/Codex里用语音发起、检查、指挥跨线程任务，Appshots还能让其读取当前聚焦窗口做上下文。面向Plus/Pro/Business/Edu/Enterprise全球推送。

产品发布 AI 摘要 · 单一来源

@OpenAI 阅读 →

OpenAI向全美用户推出ChatGPT健康功能

OpenAI 7月23日面向全美18岁以上用户(Web与iOS，覆盖Free/Go/Plus/Pro)推出「Health in ChatGPT」：可安全接入Apple Health与美国医疗门户的电子病历，让ChatGPT基于个人化验、睡眠与活动数据给出健康洞察、对比历次检查。此为1月小范围试点后的正式重启扩量。

产品发布 AI 摘要 · 单一来源

@OpenAI 阅读 →

主动观察者测试

人类视觉是闭环过程，当前视觉-语言基准无法评估MLLM是否具备主动观察能力。提出ActiveVision基准，包含17项任务分3类，强制模型进行重复视觉感知，以测量MLLM的主动观察能力。

大模型 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

Self Gradient Forcing：原生长视频外推

近期自回归视频扩散方法采用自强制训练，用自身生成的历史替代真实视频上下文，以减少曝光偏差。但历史键值缓存仅作为冻结的展开状态被未来帧使用，导致未来损失无法监督早期生成潜变量如何写入更有效的键值。我们将此问题称为历史上下文-梯度差距，并提出两遍训练策略 SGF 来解决这一问题。

研究 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

SLAI T-Rex：在 Ascend SuperPOD 上对 DeepSeek-V4 系列进行全参数后训练

万亿参数级 MoE 模型的全参数后训练面临严峻系统挑战，包括内存压力、通信开销和内核效率低下。本报告以 DeepSeek-V4 为例，在 Ascend NPU SuperPOD 上实现端到端优化，提出覆盖模型并行与计算通信编排的层次化框架。

芯片 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

2026-07-22

makecindy/cindy：Consider it done. The open-source AI agent that works out of the

Consider it done. The open-source AI agent that works out of the box · 想到，就能做到。开源、开箱即用的 AI Agent。

产品发布 AI 摘要 · 单一来源

GitHub Trending 阅读 →

Cursor上线智能模型路由Router

Cursor推出智能模型路由，按任务复杂度自动分配模型：琐碎请求走GPT-5.4-mini、中等走GPT-5.4/Sonnet 4.6、架构级走GPT-5.5/Opus 4.7，路由阈值公开且可逐请求覆盖。业内称企业侧需求旺盛——既控成本又保代码质量，智能路由正成为AI编辑器新趋势。

产品发布 AI 摘要 · 单一来源

@cursor_ai 阅读 →

隐性时钟：扩散语言模型中的潜在时间建模

扩散语言模型（DLMs）作为自回归模型的有前景替代方案近来兴起。与标准扩散方法不同，DLMs 未显式依赖时间步条件。本文发现 DLMs 实际上在其残差流中编码了与扩散时间步相关的潜在表示，且这种信号可跨层通过探针可靠提取，表明去噪进度可被解码。

研究 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

DeepMind携手美能源部推进Genesis科学计划

Google DeepMind 7月22日宣布支持美国能源部(DOE)「Genesis Mission」国家级AI科研计划，联合17个国家实验室，用Gemini驱动的AI co-scientist加速能源、材料、生物医药等发现；2026年将开放AlphaEvolve、AlphaGenome、WeatherNext等模型，早期已产出药物再利用候选与抗菌耐药机制预测。

研究 AI 摘要 · 单一来源

@GoogleDeepMind 阅读 →

OpenAI推出企业级Agent部署平台Presence

OpenAI 7月22日发布企业产品Presence，帮助企业在客服、外呼销售、内部高风险流程等场景部署可信AI Agent：模型推理叠加策略、护栏与升级规则，支持语音与聊天实时交互。当前经Forward Deployed Engineers及集成商限量GA、非自助。OpenAI称其已承接自家英文电话客服、可无人工解决约75%来电。

产品发布 AI 摘要 · 单一来源

@OpenAI 阅读 →

将转录策略作为潜在变量：激活可控的逐字ASR与词级时间对齐

现代ASR模型在异质标注数据上训练时，转录风格（逐字vs意译）作为未控潜在变量，导致解码不稳定和评估混淆（高达60%的WER归因于风格不匹配）。研究表明模型已编码两种风格，关键在于可控激活。通过在并行逐字/意译转录对上训练覆盖感知解码器任务token，即使仅英语训练也能将德语非流利检测F1从10%提升至79%零样本迁移。

研究 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

AgentDebugX：LLM Agent 故障可观测、归因与恢复的开源工具包

LLM Agent 故障难以调试，因为错误表象往往与根源不在同一环节。AgentDebugX 是一个开源调试框架，将调试组织为检测、归因、恢复、再运行的闭环。其核心模块 DeepDebug 通过全局轨迹理解、结构化调查和交叉验证实现多轮根因诊断。

大模型 AI 摘要 · 单一来源

HuggingFace Daily Papers 阅读 →

多头潜在控制：统一LLM智能体决策接口

Molt：代理强化学习的可扩展PyTorch原生训练框架

苹果智能眼镜因隐私顾虑推迟至 2027 年

0xwilliamortiz/openclaude-improved：任意运行，随处可用

Sakana AI 发布 Fugu-Ultra v1.1 + Claude Code 接口

vLLM 发布 v0.26.0

NAVER联手Brookfield与NVIDIA扩建韩国AI工厂

SK集团与NVIDIA达成超5000亿美元AI合作

agentacct：本地优先的编程Agent任务追踪仪表盘

Black Forest Labs 发布 FLUX 3 统一多模态模型

ReferTrack：用于具身视觉追踪的指代-追踪框架

AREX：面向深度研究的递归自我改进智能体

SANA-Video 2.0：结合线性注意力的高效视频生成模型

K12-KGraph：面向教育LLM的课程对齐知识图谱

Anthropic发布旗舰模型Claude Opus 5

机器人基础模型公司 Genesis AI 洽谈 5 亿美元融资

AI 芯片新贵 Etched 完成 3 亿美元 C 轮，估值 103 亿美元

Anthropic升级Claude语音模式接入Opus/Sonnet

ChatGPT语音登陆桌面端(GPT-Live全双工)

OpenAI向全美用户推出ChatGPT健康功能

主动观察者测试

Self Gradient Forcing：原生长视频外推

SLAI T-Rex：在 Ascend SuperPOD 上对 DeepSeek-V4 系列进行全参数后训练

makecindy/cindy：Consider it done. The open-source AI agent that works out of the

Cursor上线智能模型路由Router

隐性时钟：扩散语言模型中的潜在时间建模

DeepMind携手美能源部推进Genesis科学计划

OpenAI推出企业级Agent部署平台Presence

将转录策略作为潜在变量：激活可控的逐字ASR与词级时间对齐

AgentDebugX：LLM Agent 故障可观测、归因与恢复的开源工具包

该话题暂无资讯