来自 Twitter · Hacker News · GitHub 的 AI 行业动态
Replicate 宣布 Gemini 3.1 Pro 已上线平台,推理性能相比 Gemini 3 Pro 翻倍,费用保持不变。
RynnBrain 开源具身基础模型论文发布,旨在推进机器人通用智能研究。
Vercel 宣布 AI Gateway 支持视频生成,开发者可通过 AI SDK 6 的 generateVideo 函数快速接入视频生成能力。
Gemini 3.1 Pro 的 ARC-AGI-2 得分从 31.1% 跃升至 77.1%,超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),Google 重回 AI 第一梯队。
Google 分享一位员工使用 Gemini 优化储蓄策略、创建专业财务追踪工具的实际案例。
宝玉感慨技术老手常一眼看穿技术本质却忽视产品价值,许多成功产品并不需要高深技术含量。
Google 用 Gemini 3.1 Pro 实时构建国际空间站追踪面板,展示模型在多流推理、实时 API 对接和物理渲染方面的能力。
Perplexity 宣布 Gemini 3.1 Pro 已向所有 Pro 和 Max 订阅用户开放使用。
Replit 发布 Animation 功能,用户可通过 Vibe Coding 在数分钟内生成视频内容,由 Gemini 3.1 Pro 驱动。
Karpathy 分享用 Vibe Coding 一小时编写个人心率训练仪表盘的经历,展望高度定制化软件将成为新趋势。
swyx 认为 Gene Kim 和 Steve Yegge 去年 11 月关于后 IDE 时代的演讲是 AIE 历史上最精准的预测,2026 年 AI 编程正从 IDE 向 Agent 工程化转型。
ElevenLabs 发布 ElevenAgents 中的 Experiments 功能,支持运行 A/B 测试来优化 Agent 配置,涵盖提示词结构、工作流逻辑、语音和个性等维度。
Google DeepMind 展示使用 Gemini 3.1 Pro 构建的城市规划应用,模型能处理复杂地形、规划基础设施并模拟交通,生成高质量可视化效果。
Cursor 在过去三个月陆续上线了全平台 Agent 沙箱功能,允许 Agent 在安全环境中自由运行,仅在需要越界时请求用户批准。
Perplexity 的新应用 Comet 已在 Apple App Store 上线 iOS 预购,用户可提前注册体验。
Google 公布 Gemini 3.1 Pro 在 ARC-AGI-2 基准测试中获得 77.1% 的成绩,是 3 Pro 的两倍以上,在复杂推理任务上实现重大突破。
Gemini 3.1 Pro 在测试新颖逻辑模式的 ARC-AGI-2 基准上得分较 3 Pro 翻倍以上,展现更强的推理与创造力。
Elon Musk 透露 xAI 的代码主要用 Rust 编写,X 平台也在快速将 Twitter 时期遗留的 Scala 代码替换为 Rust。
Anthropic 宣布 Claude 的 PowerPoint 集成现已向 Pro 订阅用户开放,同时新增连接器功能,可将日常工具的上下文直接引入幻灯片。
Google 发布 Gemini 3.1 Pro,将 Gemini 3 Deep Think 的核心推理能力扩展到日常复杂任务中,定位为更智能的实用型模型。
Google DeepMind 正式发布 Gemini 3.1 Pro 模型,在整体智能水平上有显著提升,能够解决更复杂的问题。
Google 通过 Grow with Google 推出全新 AI 专业认证课程,包含 20 多个实践实验,涵盖项目规划、Vibe Code 自定义 AI 应用、营销素材生成和数据驱动市场调研等。
宝玉推荐网易有道开源的 LobsterAI 个人助理,基于 Electron + React + TypeScript,支持本地执行和沙箱 VM 两种模式,数据全本地 SQLite 存储,可对接钉钉、飞书等平台。
Musk 透露 Grok 的多个智能体实际上完全相同,名称和专长在推理开始时随机分配,但可能因读取 X 上关于自身的讨论而产生个性趋同。
vLLM 将于 3 月 10 日在波兰华沙举办技术聚会,主题涵盖推理优化、IDE 集成、全模态和 Kubernetes 规模化部署。
v0 产品负责人将于周三中午(PT)举办直播,演示如何使用 v0 构建 AI Agent、连接代码仓库并部署到现有代码库中。
LMSys 发布 SGLang Cookbook 教程,涵盖从基础配置到推理解析和工具调用的完整流程,以 Qwen3-30B-A3B 为演示模型,支持一键部署到任意硬件。
最新研究提出 SkillsBench 基准测试,用于系统评估 AI Agent 技能在多样化任务上的表现,填补了 Agent 能力评估领域的空白。
Recraft V4 在 Replicate 上线,支持最长 10000 字符的提示词实现极致创意精度,V4 SVG 版本可生成完全可编辑的矢量图形,可直接导入 Illustrator 或 Figma。
宝玉指出 Claude Agent SDK 已不能使用 Claude Code 的 OAuth 登录,对 Anthropic 此举表示遗憾。