全部 今日 本周 本月
2026-03-16

Google:Gemini Embedding 2 多模态嵌入模型公开预览

Google 发布首个全多模态嵌入模型 Gemini Embedding 2,支持文本、图片、视频和音频的统一映射,已在 Gemini API 和 Vertex AI 上提供公开预览。

产品发布
@Google 阅读 →

Replit:Agent 4 发布,支持无限画布自由设计

Replit 发布 Agent 4,支持在 Agent 构建的同时进行设计,可在无限画布上探索多种 UI 方案,并将精确的 UI 编辑直接应用到应用中。

产品发布
@Replit 阅读 →

NVIDIA:黄仁勋在 GTC 大会发表主题演讲,分享 AI 未来

NVIDIA CEO 黄仁勋在 SAP Center 的 GTC 大会上进行现场主题演讲,分享 AI 领域的最新进展与未来方向。

活动
@nvidia 阅读 →

Karpathy:SGD 也是 ResNet,权重就是残差流

Karpathy 发表技术观点,指出 SGD 的前向+反向传播构成类似 ResNet 的残差块,权重即残差流,引发对 Attention is All You Need 的深层思考。

研究
@karpathy 阅读 →

Cursor:构建安全 Agent 舰队持续监控代码库

Cursor 构建了一组安全代理持续运行在其代码库上,并开源了自动化模板供开发者复用。

行业
@cursor_ai 阅读 →

xAI:Grok 文本转语音 API 正式上线

xAI 发布 Grok 的 Text to Speech API,支持自然语音和表达控制,开发者可立即集成到应用中。

产品发布
@xai 阅读 →

OpenAI:AI 开始帮助解决医疗领域的实际问题

OpenAI 健康负责人 Nate Gross 博士和健康 AI 研究主管 Karan Singhal 讨论了如何构建新模型和产品以满足全球健康需求。

行业
@OpenAI 阅读 →

Perplexity:Computer 功能全面接管 Comet,可控制浏览器完成任务

Perplexity 的 Computer 功能现可完全控制 Comet,启动浏览器代理访问任意网站或已登录应用,无需连接器或 MCP,已向所有 Comet 用户开放。

产品发布
@perplexity_ai 阅读 →

Sam Altman:Codex 使用量快速增长,硬核开发者纷纷转向 Codex

Sam Altman 表示 Codex 团队是硬核构建者,产品深受硬核开发者青睐,Codex 使用量正在快速增长。

行业
@sama 阅读 →

新研究:视觉语言模型能否破解「三杯猜球」游戏?

最新论文探讨视觉语言模型在经典 Shell Game 中的推理追踪能力,为评估 VLM 动态视觉理解提供了新颖基准。

研究
@_akhaliq 阅读 →

Yann LeCun:特斯拉 FSD 远未达到 L5 级自动驾驶

LeCun 以 Model S 车主身份表示,FSD 虽然实用但仍为 L2 级辅助驾驶,远非完全自动驾驶,并分享了相关安全评级数据。

观点
@ylecun 阅读 →

Kimi:Scaling Law 实验揭示一致的 1.25 倍算力优势

月之暗面最新 Scaling Law 实验表明,在不同模型规模下均存在一致的 1.25 倍算力优势,为大模型训练效率优化提供了新参考。

大模型
@Kimi_Moonshot 阅读 →

NVIDIA:GTC 2026 大会开幕,黄仁勋主题演讲汇聚 AI 行业领袖

NVIDIA GTC 2026 大会今日举行,黄仁勋将发表主题演讲。参会企业涵盖 Mistral AI、Cohere、CoreWeave、Perplexity、LangChain 等行业领军者,OpenClaw 也在列。

活动
@nvidia 阅读 →

新论文:LMEB 长期记忆嵌入基准测试发布

研究者发布 LMEB(Long-horizon Memory Embedding Benchmark)论文,提出评估模型长期记忆嵌入能力的新基准测试框架。

研究
@_akhaliq 阅读 →

Andrej Karpathy:C 编译器生成 LLM 权重与对数复杂度注意力机制令人振奋

Karpathy 评论了一项将 C 编译器转化为 LLM 权重的研究,以及对数复杂度的 hard-max 注意力机制及其潜在推广方向,称其非常棒且令人振奋。

大模型
@karpathy 阅读 →

宝玉:让 AI Agent 自动从视频中抓取关键幻灯片作为文章配图

宝玉分享了用 Codex App 自动为文章抓取演讲视频关键帧的案例,16 张配图全由 AI 自动选取截图,仅 1 张需微调,大幅替代了以往手动截图的繁琐流程。

行业
@dotey 阅读 →

LookaheadKV:无需生成即可预见未来的 KV Cache 淘汰策略

LookaheadKV 提出一种快速准确的 KV Cache 淘汰方法,通过瞥见未来机制在不实际生成 token 的情况下判断哪些缓存可安全移除,提升长序列推理效率。

研究
@_akhaliq 阅读 →

dots.mocr:多模态 OCR 新 SOTA,文档解析仅次于 Gemini 3 Pro

dots.mocr 在 olmOCR Bench 上达到 83.9 分新纪录,超越所有开源文档解析系统。在图表、UI 布局、科学图表等结构化图形解析上,SVG 重建质量甚至超过 Gemini 3 Pro。

研究
@_akhaliq 阅读 →

宝玉:不给 AI 设限反而能突破预期,使用者心态决定 AI 表现

宝玉分享观察——完全不限制 AI 的可能性、只要求任务必达时,AI 会不断尝试各种途径最终突破预期。有时越懂技术的人反而越给 AI 设限,不敢放手尝试。

观点
@dotey 阅读 →

Kimi:提出 Attention Residuals 新方法,重新思考深度聚合机制

月之暗面发布 Attention Residuals 研究,用学习型、输入依赖的注意力机制替代传统固定残差连接,能选择性地检索先前层表征,有效缓解信息稀释和隐状态膨胀问题。

研究
@Kimi_Moonshot 阅读 →

Ollama:正式成为 OpenClaw 官方提供商,所有模型无缝接入

Ollama 宣布成为 OpenClaw 的官方 provider,用户只需执行 onboard 命令即可接入,所有 Ollama 模型均可与 OpenClaw 无缝协作,直接在聊天应用中完成各类任务。

产品发布
@ollama 阅读 →