人工智能行业最新动态
Google AI 团队分享 Gemini 集成 Chrome 浏览器的工程细节,探讨全球最受欢迎浏览器如何成为 AI 驱动平台,以及 Chrome 的未来方向
Together AI 前沿代理研究团队发布新研究:在极简提示、无聊天模板、无系统指令的条件下,LLM 生成内容揭示了不同模型家族间截然不同的系统性「知识先验」
Anthropic 宣布「Built with Opus 4.6」Claude Code 虚拟黑客松,为期一周的构建挑战,优胜者将获得价值 10 万美元的 Claude API 额度
Sam Altman 表示 GPT-5.3 的好评如潮令人欣慰,这是自初代 GPT-4 以来对模型最大的热情。同时向用户征求 Codex 收费方式的意见
OpenAI 公布数据:每周超过 3 亿人使用 ChatGPT 学习如何做某件事,超过半数美国用户表示 ChatGPT 让他们实现了此前觉得不可能的事情
Karpathy 分享用 AI 模型迭代 nanochat 项目的经验:模型尚无法有效进行开放式迭代,Opus 会擅自清理不理解的注释,忽略 CLAUDE.md 编码规范指令。但有监督的明确任务下仍非常有用
Google DeepMind 联合 Waymo 发布 Genie 3 自动驾驶世界模型,可生成照片级逼真的交互式驾驶环境,工程师可模拟极端天气、鲁莽驾驶等场景进行压力测试
xAI 推出 X 开发者 API 积分回馈计划,开发者每花费 1 美元 X API 额度,可获得最高 20% 的 xAI API 积分返还,鼓励在 X 平台构建 Grok 应用
Perplexity 宣布 Claude Opus 4.6 已上线,Max 订阅用户可在 Model Council 中使用,与其他前沿模型进行对比
v0 宣布代码编辑器现由 VS Code 驱动,支持完整的编辑器功能和扩展,同时可在网页端和 iOS 应用中使用
Kimi 宣布 K2.5 在 OpenRouter 排行榜上升至第二名,继昨日登顶后持续保持强劲势头
Ollama 展示 Qwen3-Coder-Next 能力:仅用一个提示词即可生成完整可运行的 Flappy Birds 游戏 HTML 代码,无需任何编辑,可完全本地运行
HuggingFace 本周密集发布:社区评估、基准数据集排行榜,用户可通过 PR 提交评估结果
海螺 AI 举办转发抽奖活动,奖品为 Mac mini,活动剩余 30 小时
OpenAI 推出 Frontier 企业服务,与 HP、Intuit、Oracle、State Farm 等大客户合作,配备 Forward Deployed Engineers 帮助企业构建和运行 AI 代理
Luma Labs 宣布 Ray3.14 现已在 Adobe Firefly 中可用,支持原生 1080p 视频创作,主体和物体在每一帧中保持一致和对齐
Google AI 回顾十多年来的科研历程:从洪水预测到大脑图谱再到最新公告,重新定义科学的边界
Replicate 宣布 Claude Opus 4.6 上线,这是 Anthropic 的旗舰模型,擅长深度推理和代理任务,能够仔细规划、发现自身错误并处理复杂任务
Scale AI 祝贺 OpenAI,57% 是 SWE-Bench Pro 有史以来的最高分。SWE-Bench Pro 仍是评估真实软件工程能力的领先基准
OpenAI 发布 GPT-5.3-Codex,在编码任务上表现卓越:SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%。支持任务中途调整和实时更新,响应更快
Anthropic 工程博客:Opus 4.6 使用代理团队自主构建 C 编译器,两周后成功在 Linux 内核上运行。分享了关于大规模代理协作的经验教训
Cursor 宣布 Opus 4.6 已上线,在长时间运行任务和代码审查方面表现出色
OpenAI 与 Ginkgo Bioworks 合作,将 GPT-5 连接到自主实验室。AI 可自主提出实验方案、大规模运行、学习结果并决定下一步,形成闭环研究系统
Perplexity 推出 Model Council 功能,同时运行三个前沿模型,比较输出并获得更准确、更高置信度的答案。仅限网页版 Perplexity 用户
Cursor 团队分享长时间运行代理系统经验:在最近一次为期一周的运行中,数百个代理每小时产生超过 1,000 次提交。首次公开分享相关经验
Kimi 宣布首次登顶 OpenRouter LLM 排行榜总使用量榜首,这是团队的重要里程碑。感谢所有用户的支持
v0 发布重大更新:可导入任意 GitHub 仓库并在实际代码库上工作,每次代码更改自动生成提交,支持直接从 v0 创建 PR 和合并
vLLM-Omni 论文已上传 arXiv,记录了为任意到任意多模态模型服务的系统设计,采用基于阶段的分解方法
Sam Altman 表示使用新模型的体验比基准分数显示的进步更大。新模型支持「务实」和「友好」两种人格风格选择
Anthropic 发布工程博客,量化代理编码评估中的基础设施噪声。基础设施配置可能使代理编码基准分数波动数个百分点