计算机科学 > 计算与语言
[提交于 2024年12月29日
(v1)
,最后修订 2025年5月2日 (此版本, v2)]
标题: ICLR:表示的上下文学习
标题: ICLR: In-Context Learning of Representations
摘要: 近期的研究表明,预训练数据指定的语义会影响大型语言模型(LLM)中不同概念表征的组织方式。然而,考虑到LLM的开放性特性,比如它们的即时学习能力,我们可以问这些模型是否会改变这些预训练语义,以采用替代性的、由上下文指定的语义。具体来说,如果我们提供一些即时示例,其中某个概念扮演的角色与预训练数据所暗示的不同,模型是否会根据这些新的语义重新组织它们的表征?为了回答这个问题,我们受到概念角色语义理论的启发,并定义了一个玩具“图追踪”任务,在这个任务中,图的节点通过训练过程中看到的概念(例如苹果、鸟等)来引用,而图的连通性则通过某种预定义的结构(例如正方形网格)来定义。给定指示图上随机游走轨迹的示例,我们分析了模型的中间表征,并发现随着上下文量的增加,存在从预训练语义表征到与图结构对齐的即时上下文表征的突然重组。此外,我们发现当参考概念在其语义上有相关性时(例如星期一、星期二等),由上下文指定的图结构仍然存在于表征中,但无法主导预训练结构。为了解释这些结果,我们将我们的任务类比为预先定义的图拓扑的能量最小化过程,提供了关于隐式优化过程推断上下文指定语义的证据。总体而言,我们的研究结果表明,扩展上下文大小可以灵活地重组模型表征,可能解锁新的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.