AI 资讯

2026-03-19

MiniMax x Agora：3月30日东京举办语音 AI Agent 开发者之夜

MiniMax 联合 Agora 在日本动漫周期间举办 Voice AI Agent Builder Night，展示 TTS 和 LLM 驱动的下一代语音 AI 应用。

活动 AI 摘要 · 单一来源

@Hailuo_AI 阅读 →

海螺 AI：发布 Light Studio 电影级灯光调节工具

海螺 AI 推出 Light Studio 功能，支持细调灯光角度、强度和色温，提供 20 种预设和双光源混合，提供免费试用。

产品发布 AI 摘要 · 单一来源

@Hailuo_AI 阅读 →

vLLM：百度千帆 OCR 4B 模型登顶 OmniDocBench 榜单

百度发布 4B 参数文档智能模型 Qianfan-OCR，在 OmniDocBench v1.5 上得分 93.12，支持 192 种语言和复杂版面，已可在 vLLM 上运行。

研究 AI 摘要 · 单一来源

@vllm_project 阅读 →

Grok 下周将支持多格式文件输出

Musk 透露 Grok 即将支持不同格式的文件输出功能，将于下周上线，进一步增强 Grok 的实用性。

产品发布 AI 摘要 · 单一来源

@elonmusk 阅读 →

AI 编程能力几个月内将普及

Musk 评论 Cursor 时表示，编程能力将在几个月内由多家公司普遍提供，暗示 AI 编程工具将快速商品化。

观点 · 观点/主张 AI 摘要 · 单一来源

@elonmusk 阅读 →

展示 Grok Imagine 生成的一分钟故事短片

Musk 在 X 上分享了一段由 Grok Imagine 生成的一分钟故事短片，展示了 xAI 图像生成能力的最新进展。

产品发布 AI 摘要 · 单一来源

@elonmusk 阅读 →

SparkVSR：基于稀疏关键帧传播的交互式视频超分辨率

新论文 SparkVSR 提出基于稀疏关键帧传播的交互式视频超分辨率方法，实现高效视频画质增强。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

vLLM 被 AMD 选为 GPU MODE 黑客松推理框架，总奖金 65 万美元

AMD 选定 vLLM 为 GPU MODE 黑客松指定推理框架，挑战在 8 块 MI355X 上优化 Kimi K2.5 1T FP4 推理性能，获胜优化需合入上游代码。

芯片 AI 摘要 · 单一来源

@vllm_project 阅读 →

MolmoPoint：为视觉语言模型带来更精准的定位能力

新论文 MolmoPoint 提出基于 Grounding Tokens 的方法，提升视觉语言模型的指向定位精度，已开源模型和在线演示。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

ICML 2026 查出 506 名审稿人用大模型代写审稿意见，497 篇论文全部拒稿

ICML 组委会在论文 PDF 中埋入隐藏提示词，成功识别出 506 名使用 AI 代写审稿意见的审稿人，其同时作为作者提交的 497 篇论文全部被拒。

研究 AI 摘要 · 单一来源

@dotey 阅读 →

AI 瓶颈将从芯片转向能源，太空太阳能将解锁下一阶段

马斯克表示，地球上 AI 的限制因素将从芯片转向能源，而当太空太阳能被解锁后，瓶颈将重新回到芯片。

芯片 AI 摘要 · 单一来源

@elonmusk 阅读 →

谷歌将赢得西方 AI 竞赛，中国赢地球，SpaceX 赢太空

马斯克回复评论称，谷歌将在西方赢得 AI 竞赛，中国将在地球上胜出，而 SpaceX 将在太空领域领先。

行业 AI 摘要 · 单一来源

@elonmusk 阅读 →

特斯拉 AI5 芯片为 Optimus 和 Robotaxi 边缘计算优化，AI6 单芯片性能有望匹配双 SoC

马斯克透露特斯拉 AI5 芯片专为边缘 AI 计算优化，软硬件协同设计。同工艺节点下，AI6 单芯片有望达到双 SoC 的性能水平。

观点 · 观点/主张 AI 摘要 · 单一来源

@elonmusk 阅读 →

非常钦佩英伟达和黄仁勋，SpaceX 和特斯拉将继续大规模采购英伟达芯片

马斯克表示英伟达的市值实至名归，SpaceX AI 和特斯拉预计将继续大规模订购英伟达芯片。

芯片 AI 摘要 · 单一来源

@elonmusk 阅读 →

2026-03-18

Anthropic：用 Claude 访谈了 159 个国家的用户，覆盖 70 种语言

Anthropic 使用 Claude Interviewer 版本进行大规模对话式访谈研究，覆盖 159 个国家、70 种语言的用户反馈。

研究 AI 摘要 · 单一来源

@AnthropicAI 阅读 →

Midjourney：举办每周 Office Hours 直播

Midjourney 于 3 月 18 日举办每周例行 Office Hours 直播活动，讨论产品最新进展。

活动 AI 摘要 · 单一来源

@midjourney 阅读 →

新论文：MiroThinker 通过验证机制构建重型研究 Agent

研究人员发布 MiroThinker-1.7 和 H1 模型，通过验证机制提升研究 Agent 在复杂任务中的可靠性和准确性。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

新论文 V-Co：通过协同去噪改进视觉表征对齐

研究人员提出 V-Co 方法，通过协同去噪技术改进视觉表征对齐，为多模态理解提供新思路。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

Hugging Face Papers 为 AI Agent 推出 Markdown 版本和搜索技能

Hugging Face Papers 页面现在自动为 AI Agent 提供 Markdown 版本，并新增论文搜索技能，支持按标题、作者或语义相似度检索。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

微软考虑就亚马逊-OpenAI 500 亿美元云计算协议提起诉讼

微软正考虑对亚马逊和 OpenAI 采取法律行动，因 OpenAI 与 AWS 的 500 亿美元合作可能违反与微软的 Azure 独家云服务条款。

大模型 AI 摘要 · 单一来源

@dotey 阅读 →

InCoder-32B：面向工业场景的代码基座模型发布

新论文发布 InCoder-32B 代码基座模型，专为工业应用场景设计优化。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

Browserbase 完成 3 亿美元 B 轮融资，成立仅 18 个月

浏览器自动化平台 Browserbase 在成立 18 个月内完成 3 亿美元 B 轮融资，正在扩大企业销售团队。

企业动态 AI 摘要 · 单一来源

@browserbase 阅读 →

千帆 OCR：统一端到端文档智能模型发布

百度发布 Qianfan-OCR 统一端到端文档智能模型，支持复杂文档理解和信息提取，已提供在线演示。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

LlamaIndex：LlamaParse 新增 Agentic Plus 模式，支持精确视觉定位

LlamaParse Agentic Plus 模式新增边界框视觉定位功能，可精确解析复杂 LaTeX 公式、手写文字识别、多栏布局和信息图表。

产品发布 AI 摘要 · 单一来源

@llama_index 阅读 →

LlamaIndex：上下文工程是新的提示工程，构建 AI Agent 的核心

LlamaIndex 引用 Karpathy 观点指出，上下文工程正取代提示工程成为构建 AI Agent 的关键，核心在于为 LLM 填充恰当的上下文信息。

观点 · 观点/主张 AI 摘要 · 单一来源

@llama_index 阅读 →

Browserbase：支持 Stripe 机器支付协议 MPP，AI Agent 可按次付费搜索和浏览

Browserbase 宣布支持 Stripe 推出的机器支付协议 MPP，AI Agent 现可通过新端点按搜索和浏览次数进行自动支付。

行业 AI 摘要 · 单一来源

@browserbase 阅读 →

n8n：树莓派部署指南发布，支持 Docker 搭建轻量自托管自动化

RaspberryTips 发布在树莓派上运行 n8n 的完整指南，涵盖 Docker 配置、核心节点、项目实例和常见问题，适合轻量级自托管自动化场景。

行业 AI 摘要 · 单一来源

@n8n_io 阅读 →

新论文 WorldCam：用相机位姿作为统一几何表示实现交互式 3D 游戏世界

研究者提出 WorldCam，以相机位姿为统一几何表示，实现自回归交互式 3D 游戏世界生成。

研究 AI 摘要 · 单一来源

@_akhaliq 阅读 →

英伟达：开源 10 万亿语言 Token、50 万机器人轨迹和 100TB 车辆传感器数据

英伟达发布大规模开源模型和数据集，涵盖 Agent AI、机器人、自动驾驶和研究领域，旨在加速专业 AI 开发。

产品发布 AI 摘要 · 单一来源

@nvidia 阅读 →

MiniMax x Agora：3月30日东京举办语音 AI Agent 开发者之夜

海螺 AI：发布 Light Studio 电影级灯光调节工具

vLLM：百度千帆 OCR 4B 模型登顶 OmniDocBench 榜单

Grok 下周将支持多格式文件输出

AI 编程能力几个月内将普及

推荐 Grok Imagine 的 Chibi Q版模板

展示 Grok Imagine 生成的一分钟故事短片

SparkVSR：基于稀疏关键帧传播的交互式视频超分辨率

vLLM 被 AMD 选为 GPU MODE 黑客松推理框架，总奖金 65 万美元

MolmoPoint：为视觉语言模型带来更精准的定位能力

ICML 2026 查出 506 名审稿人用大模型代写审稿意见，497 篇论文全部拒稿

AI 瓶颈将从芯片转向能源，太空太阳能将解锁下一阶段

谷歌将赢得西方 AI 竞赛，中国赢地球，SpaceX 赢太空

特斯拉 AI5 芯片为 Optimus 和 Robotaxi 边缘计算优化，AI6 单芯片性能有望匹配双 SoC

非常钦佩英伟达和黄仁勋，SpaceX 和特斯拉将继续大规模采购英伟达芯片

Anthropic：用 Claude 访谈了 159 个国家的用户，覆盖 70 种语言

Midjourney：举办每周 Office Hours 直播

新论文：MiroThinker 通过验证机制构建重型研究 Agent

新论文 V-Co：通过协同去噪改进视觉表征对齐

Hugging Face Papers 为 AI Agent 推出 Markdown 版本和搜索技能

微软考虑就亚马逊-OpenAI 500 亿美元云计算协议提起诉讼

InCoder-32B：面向工业场景的代码基座模型发布

Browserbase 完成 3 亿美元 B 轮融资，成立仅 18 个月

千帆 OCR：统一端到端文档智能模型发布

LlamaIndex：LlamaParse 新增 Agentic Plus 模式，支持精确视觉定位

LlamaIndex：上下文工程是新的提示工程，构建 AI Agent 的核心

Browserbase：支持 Stripe 机器支付协议 MPP，AI Agent 可按次付费搜索和浏览

n8n：树莓派部署指南发布，支持 Docker 搭建轻量自托管自动化

新论文 WorldCam：用相机位姿作为统一几何表示实现交互式 3D 游戏世界

英伟达：开源 10 万亿语言 Token、50 万机器人轨迹和 100TB 车辆传感器数据

该话题暂无资讯