计算机科学 > 人工智能
[提交于 2024年6月3日
(v1)
,最后修订 2024年7月31日 (此版本, v2)]
标题: 位置:一种受认知神经科学启示的AI内部可解释性框架
标题: Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience
摘要: 内部可解释性是一个有前景的新兴领域,其任务是揭示人工智能系统的内部机制,尽管如何开发这些机制理论仍存在很大争议。 此外,最近的批评提出了质疑其对推动人工智能更广泛目标有用性的议题。 然而,人们忽略了这些议题与另一个领域中所面临的议题相似:认知神经科学。 在这里,我们探讨了相关的联系,并强调了可以在这两个领域之间有效转移的经验教训。 基于这些,我们提出了一种通用的概念框架,并给出了在人工智能内部可解释性研究中构建机制解释的具体方法策略。 通过这个概念框架,内部可解释性可以应对批评,并在其解释人工智能系统的发展道路上处于有成效的位置。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.