来自 Twitter · Hacker News · GitHub 的 AI 行业动态
v0 宣布代码编辑器现由 VS Code 驱动,支持完整的编辑器功能和扩展,同时可在网页端和 iOS 应用中使用
Kimi 宣布 K2.5 在 OpenRouter 排行榜上升至第二名,继昨日登顶后持续保持强劲势头
Ollama 展示 Qwen3-Coder-Next 能力:仅用一个提示词即可生成完整可运行的 Flappy Birds 游戏 HTML 代码,无需任何编辑,可完全本地运行
HuggingFace 本周密集发布:社区评估、基准数据集排行榜,用户可通过 PR 提交评估结果
海螺 AI 举办转发抽奖活动,奖品为 Mac mini,活动剩余 30 小时
OpenAI 推出 Frontier 企业服务,与 HP、Intuit、Oracle、State Farm 等大客户合作,配备 Forward Deployed Engineers 帮助企业构建和运行 AI 代理
Luma Labs 宣布 Ray3.14 现已在 Adobe Firefly 中可用,支持原生 1080p 视频创作,主体和物体在每一帧中保持一致和对齐
Google AI 回顾十多年来的科研历程:从洪水预测到大脑图谱再到最新公告,重新定义科学的边界
Replicate 宣布 Claude Opus 4.6 上线,这是 Anthropic 的旗舰模型,擅长深度推理和代理任务,能够仔细规划、发现自身错误并处理复杂任务
Scale AI 祝贺 OpenAI,57% 是 SWE-Bench Pro 有史以来的最高分。SWE-Bench Pro 仍是评估真实软件工程能力的领先基准
OpenAI 发布 GPT-5.3-Codex,在编码任务上表现卓越:SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%。支持任务中途调整和实时更新,响应更快
Anthropic 工程博客:Opus 4.6 使用代理团队自主构建 C 编译器,两周后成功在 Linux 内核上运行。分享了关于大规模代理协作的经验教训
Cursor 宣布 Opus 4.6 已上线,在长时间运行任务和代码审查方面表现出色
OpenAI 与 Ginkgo Bioworks 合作,将 GPT-5 连接到自主实验室。AI 可自主提出实验方案、大规模运行、学习结果并决定下一步,形成闭环研究系统
Perplexity 推出 Model Council 功能,同时运行三个前沿模型,比较输出并获得更准确、更高置信度的答案。仅限网页版 Perplexity 用户
Cursor 团队分享长时间运行代理系统经验:在最近一次为期一周的运行中,数百个代理每小时产生超过 1,000 次提交。首次公开分享相关经验
Kimi 宣布首次登顶 OpenRouter LLM 排行榜总使用量榜首,这是团队的重要里程碑。感谢所有用户的支持
v0 发布重大更新:可导入任意 GitHub 仓库并在实际代码库上工作,每次代码更改自动生成提交,支持直接从 v0 创建 PR 和合并
vLLM-Omni 论文已上传 arXiv,记录了为任意到任意多模态模型服务的系统设计,采用基于阶段的分解方法
Sam Altman 表示使用新模型的体验比基准分数显示的进步更大。新模型支持「务实」和「友好」两种人格风格选择
Anthropic 发布工程博客,量化代理编码评估中的基础设施噪声。基础设施配置可能使代理编码基准分数波动数个百分点
HuggingFace 发布 Community Evals 和 Benchmark 仓库,支持去中心化评估。用户和模型作者报告的分数将显示在排行榜上
Together 发布 Python SDK 2.0,全新类型安全、OpenAPI 驱动的客户端,设计更快更易用
上海 AI 实验室发布 Intern-S1-Pro,1T 参数 MoE 开源多模态科学推理模型,在科学推理任务上达到 SOTA,可与领先闭源模型竞争
NVIDIA 与 Dassault Systèmes 宣布开创物理 AI 新时代,打造可学习、模拟和进化的虚拟孪生技术
vLLM 宣布在 NVIDIA GB200 上运行 DeepSeek R1/V3 的性能数据:预填充 26.2K TPGS,解码 10.1K TPGS,使用一半 GPU 即可达到 H200 的 3-5 倍吞吐
Mistral 发布 Voxtral Mini 4B Realtime,4B 参数流式语音识别模型,延迟低于 500ms,准确率可比离线模型,vLLM 首日支持
vLLM 宣布首日支持 Intern-S1-Pro,这是一款万亿参数级 MoE 科学推理模型:1T 总参数、512 专家、每 token 激活 22B 参数
ElevenLabs 宣布将利用新融资加大对 ElevenAgents 的投入,使企业能够部署具有可靠性、集成、测试和监控功能的语音和聊天代理
Qwen3-Coder-Next 现已在 Together、HuggingFace 和 Ollama 上线,作为生产就绪的编码代理可供使用