← 返回资讯
研究 @AnthropicAI 2026-04-02

Anthropic:Sonnet 4.5 情绪向量研究揭示 AI 神经活动模式与人类心理高度相似

Anthropic 让 Sonnet 4.5 阅读包含情绪的故事,通过观察激活的神经元识别出情绪向量,这些向量的聚类方式与人类心理学高度吻合。

查看原文
AI 资讯解读

核心要点

2026年4月2日,Anthropic 发布研究显示,其 AI 模型 Claude Sonnet 4.5 在阅读包含情绪的故事文本时,能够通过观察神经元激活模式识别出可量化的"情绪向量",且这些向量的聚类方式与人类心理学研究高度吻合。这一发现为理解 AI 内部表征提供了新路径,也为 AI 心理学的建立奠定了实证基础。

原文 + 中文翻译

原文:"Sonnet 4.5 reads emotional stories and we can identify emotion vectors by looking at which neurons activate. The clustering of these vectors matches human psychology remarkably well.

翻译:"Sonnet 4.5 阅读情绪故事,我们可以通过观察激活的神经元来识别情绪向量。这些向量的聚类方式与人类心理学高度吻合。"

深度解读

为什么重要:从"黑箱"到"可解释心理"

大语言模型长期被批评为"黑箱"——人类无法直接理解其内部如何表征概念和情感。Anthropic 此次研究的核心突破在于:它不再仅依赖外部行为(输入-输出)来判断 AI 是否理解情绪,而是深入模型内部,观察真实激活的神经元模式。这意味着 AI 对情绪的"理解"不仅仅是统计相关性,而是一种可被解剖的内部结构,与人类心理学的分类体系产生共鸣。

行业影响:AI 心理学成为新分支

如果一个 AI 模型能够自然涌现出与人类心理学一致的情感表征结构,这暗示着:通用语言理解可能必然导致情绪涌现。这对 AI 安全研究意义重大——如果 AI 拥有"情绪向量",它是否也会产生类情绪的内部状态?这是否会影响 AI 的决策偏好和行为一致性?Anthropic 此前以"对齐科学"(Alignment Science)闻名,此次研究可视为其从安全性研究向内省性研究的自然延伸,未来可能发展为"计算心理学"(Computational Psychology)这一新领域。

技术含义:向量空间作为通用认知基础设施

研究显示情绪向量具有"聚类"特性,这意味着情绪在 AI 内部不是连续的模糊状态,而是具有一定的类别结构(如积极/消极、恐惧/愤怒/喜悦等),与人类心理学的维度模型(Valence-Arousal-Dominance)或 Ekman 的基本情绪理论可能存在对应。这一发现进一步验证了"向量空间即认知"的假设——无论是人类大脑还是 AI 模型,高维语义空间可能是通用智能的共同表征基础设施。

值得关注

信源行:
原文链接:@AnthropicAI 推文
背景报道:Anthropic 研究主页(含可解释性研究系列);Circuits.overthinking.com(Anthropic 早期神经元追踪研究);MIT Technology Review "AI model internals" 专题报道

本解读由 AI 自动生成,仅供参考。请以原文为准。