来自 Twitter · Hacker News · GitHub 的 AI 行业动态
MiniMax 联合 Agora 在日本动漫周期间举办 Voice AI Agent Builder Night,展示 TTS 和 LLM 驱动的下一代语音 AI 应用。
海螺 AI 推出 Light Studio 功能,支持细调灯光角度、强度和色温,提供 20 种预设和双光源混合,提供免费试用。
百度发布 4B 参数文档智能模型 Qianfan-OCR,在 OmniDocBench v1.5 上得分 93.12,支持 192 种语言和复杂版面,已可在 vLLM 上运行。
Musk 透露 Grok 即将支持不同格式的文件输出功能,将于下周上线,进一步增强 Grok 的实用性。
Musk 评论 Cursor 时表示,编程能力将在几个月内由多家公司普遍提供,暗示 AI 编程工具将快速商品化。
Musk 推荐用户尝试 Grok Imagine 的 Chibi Q版模板,称效果非常可爱,展示 xAI 图像生成的风格多样性。
Musk 在 X 上分享了一段由 Grok Imagine 生成的一分钟故事短片,展示了 xAI 图像生成能力的最新进展。
新论文 SparkVSR 提出基于稀疏关键帧传播的交互式视频超分辨率方法,实现高效视频画质增强。
AMD 选定 vLLM 为 GPU MODE 黑客松指定推理框架,挑战在 8 块 MI355X 上优化 Kimi K2.5 1T FP4 推理性能,获胜优化需合入上游代码。
新论文 MolmoPoint 提出基于 Grounding Tokens 的方法,提升视觉语言模型的指向定位精度,已开源模型和在线演示。
ICML 组委会在论文 PDF 中埋入隐藏提示词,成功识别出 506 名使用 AI 代写审稿意见的审稿人,其同时作为作者提交的 497 篇论文全部被拒。
马斯克表示,地球上 AI 的限制因素将从芯片转向能源,而当太空太阳能被解锁后,瓶颈将重新回到芯片。
马斯克回复评论称,谷歌将在西方赢得 AI 竞赛,中国将在地球上胜出,而 SpaceX 将在太空领域领先。
马斯克透露特斯拉 AI5 芯片专为边缘 AI 计算优化,软硬件协同设计。同工艺节点下,AI6 单芯片有望达到双 SoC 的性能水平。
马斯克表示英伟达的市值实至名归,SpaceX AI 和特斯拉预计将继续大规模订购英伟达芯片。
Anthropic 使用 Claude Interviewer 版本进行大规模对话式访谈研究,覆盖 159 个国家、70 种语言的用户反馈。
Midjourney 于 3 月 18 日举办每周例行 Office Hours 直播活动,讨论产品最新进展。
研究人员发布 MiroThinker-1.7 和 H1 模型,通过验证机制提升研究 Agent 在复杂任务中的可靠性和准确性。
研究人员提出 V-Co 方法,通过协同去噪技术改进视觉表征对齐,为多模态理解提供新思路。
Hugging Face Papers 页面现在自动为 AI Agent 提供 Markdown 版本,并新增论文搜索技能,支持按标题、作者或语义相似度检索。
微软正考虑对亚马逊和 OpenAI 采取法律行动,因 OpenAI 与 AWS 的 500 亿美元合作可能违反与微软的 Azure 独家云服务条款。
新论文发布 InCoder-32B 代码基座模型,专为工业应用场景设计优化。
浏览器自动化平台 Browserbase 在成立 18 个月内完成 3 亿美元 B 轮融资,正在扩大企业销售团队。
百度发布 Qianfan-OCR 统一端到端文档智能模型,支持复杂文档理解和信息提取,已提供在线演示。
LlamaParse Agentic Plus 模式新增边界框视觉定位功能,可精确解析复杂 LaTeX 公式、手写文字识别、多栏布局和信息图表。
LlamaIndex 引用 Karpathy 观点指出,上下文工程正取代提示工程成为构建 AI Agent 的关键,核心在于为 LLM 填充恰当的上下文信息。
Browserbase 宣布支持 Stripe 推出的机器支付协议 MPP,AI Agent 现可通过新端点按搜索和浏览次数进行自动支付。
RaspberryTips 发布在树莓派上运行 n8n 的完整指南,涵盖 Docker 配置、核心节点、项目实例和常见问题,适合轻量级自托管自动化场景。
研究者提出 WorldCam,以相机位姿为统一几何表示,实现自回归交互式 3D 游戏世界生成。
英伟达发布大规模开源模型和数据集,涵盖 Agent AI、机器人、自动驾驶和研究领域,旨在加速专业 AI 开发。