人工智能行业最新动态
Google 发布首个全多模态嵌入模型 Gemini Embedding 2,支持文本、图片、视频和音频的统一映射,已在 Gemini API 和 Vertex AI 上提供公开预览。
Replit 发布 Agent 4,支持在 Agent 构建的同时进行设计,可在无限画布上探索多种 UI 方案,并将精确的 UI 编辑直接应用到应用中。
NVIDIA CEO 黄仁勋在 SAP Center 的 GTC 大会上进行现场主题演讲,分享 AI 领域的最新进展与未来方向。
Karpathy 发表技术观点,指出 SGD 的前向+反向传播构成类似 ResNet 的残差块,权重即残差流,引发对 Attention is All You Need 的深层思考。
Cursor 构建了一组安全代理持续运行在其代码库上,并开源了自动化模板供开发者复用。
xAI 发布 Grok 的 Text to Speech API,支持自然语音和表达控制,开发者可立即集成到应用中。
OpenAI 健康负责人 Nate Gross 博士和健康 AI 研究主管 Karan Singhal 讨论了如何构建新模型和产品以满足全球健康需求。
Perplexity 的 Computer 功能现可完全控制 Comet,启动浏览器代理访问任意网站或已登录应用,无需连接器或 MCP,已向所有 Comet 用户开放。
Sam Altman 表示 Codex 团队是硬核构建者,产品深受硬核开发者青睐,Codex 使用量正在快速增长。
最新论文探讨视觉语言模型在经典 Shell Game 中的推理追踪能力,为评估 VLM 动态视觉理解提供了新颖基准。
LeCun 以 Model S 车主身份表示,FSD 虽然实用但仍为 L2 级辅助驾驶,远非完全自动驾驶,并分享了相关安全评级数据。
月之暗面最新 Scaling Law 实验表明,在不同模型规模下均存在一致的 1.25 倍算力优势,为大模型训练效率优化提供了新参考。
NVIDIA GTC 2026 大会今日举行,黄仁勋将发表主题演讲。参会企业涵盖 Mistral AI、Cohere、CoreWeave、Perplexity、LangChain 等行业领军者,OpenClaw 也在列。
研究者发布 LMEB(Long-horizon Memory Embedding Benchmark)论文,提出评估模型长期记忆嵌入能力的新基准测试框架。
Karpathy 评论了一项将 C 编译器转化为 LLM 权重的研究,以及对数复杂度的 hard-max 注意力机制及其潜在推广方向,称其非常棒且令人振奋。
宝玉分享了用 Codex App 自动为文章抓取演讲视频关键帧的案例,16 张配图全由 AI 自动选取截图,仅 1 张需微调,大幅替代了以往手动截图的繁琐流程。
LookaheadKV 提出一种快速准确的 KV Cache 淘汰方法,通过瞥见未来机制在不实际生成 token 的情况下判断哪些缓存可安全移除,提升长序列推理效率。
dots.mocr 在 olmOCR Bench 上达到 83.9 分新纪录,超越所有开源文档解析系统。在图表、UI 布局、科学图表等结构化图形解析上,SVG 重建质量甚至超过 Gemini 3 Pro。
宝玉分享观察——完全不限制 AI 的可能性、只要求任务必达时,AI 会不断尝试各种途径最终突破预期。有时越懂技术的人反而越给 AI 设限,不敢放手尝试。
月之暗面发布 Attention Residuals 研究,用学习型、输入依赖的注意力机制替代传统固定残差连接,能选择性地检索先前层表征,有效缓解信息稀释和隐状态膨胀问题。
Ollama 宣布成为 OpenClaw 的官方 provider,用户只需执行 onboard 命令即可接入,所有 Ollama 模型均可与 OpenClaw 无缝协作,直接在聊天应用中完成各类任务。