定量生物学 > 神经与认知
[提交于 2025年6月30日
]
标题: 特征集成空间:联合训练揭示神经网络表示中的双重编码
标题: Feature Integration Spaces: Joint Training Reveals Dual Encoding in Neural Network Representations
摘要: 当前的稀疏自编码器(SAE)方法在神经网络可解释性方面假设激活可以通过线性叠加分解为稀疏、可解释的特征。 尽管重建保真度高,SAE始终无法消除多义性并表现出病理行为错误。 我们提出神经网络在压缩到同一底物的两个互补空间中编码信息:特征身份和特征整合。 为了验证这一双重编码假设,我们开发了顺序训练和联合训练架构以同时捕捉身份和整合模式。 联合训练实现了41.3%的重建改进和51.6%的KL散度误差减少。 该架构自发地发展出双峰特征组织:低平方范数特征贡献于整合路径,其余特征直接贡献于残差。 小型非线性组件(占参数的3%)实现了16.5%的独立改进,证明了对行为至关重要的计算关系的参数高效捕获。 此外,使用2x2因子刺激设计的干预实验表明,整合特征对实验操作表现出选择性敏感性,并在模型输出上产生系统的行为效应,包括跨语义维度的显著交互效应。 这项工作为(1)神经表示中的双重编码,(2)有意义的非线性编码特征交互,以及(3)从事后特征分析到集成计算设计的架构范式转变提供了系统证据,为下一代SAE奠定了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.