计算机科学 > 计算与语言
[提交于 2025年9月26日
]
标题: 变压器可以在某些图中学习连接性,但不能在其他图中学习
标题: Transformers Can Learn Connectivity in Some Graphs but Not Others
摘要: 推理能力对于确保基于Transformer的大语言模型(LLMs)的响应的真实性至关重要,而对传递关系的稳健推理在许多场景中至关重要,例如因果推断。 因此,研究Transformer在推断传递关系任务中的能力是至关重要的(例如,知道A导致B,B导致C,那么A导致C)。 推断传递关系的任务等同于有向图中的连通性任务(例如,知道从A到B有一条路径,从B到C有一条路径,那么从A到C有一条路径)。 过去的研究集中在Transformer是否能够从输入提示中提供的上下文示例中学习推断传递性。 然而,Transformer从训练示例中推断传递关系的能力以及扩展如何影响这种能力尚未被探索。 在本研究中,我们通过生成有向图来训练不同规模的Transformer模型,并评估它们在各种图大小下推断传递关系的能力,以回答这个问题。 我们的发现表明,Transformer能够在“网格状”有向图上学习连通性,其中每个节点可以嵌入到低维子空间中,并且可以从节点的嵌入中轻松推断出连通性。 我们发现底层网格图的维度是Transformer学习连通性任务能力的强预测因子,高维网格图比低维网格图更具挑战性。 此外,我们观察到,增加模型规模会导致对网格图上连通性的泛化能力不断提高。 然而,如果图不是网格图并且包含许多不连通的组件,Transformer在学习连通性任务时会遇到困难,尤其是当组件数量较大时。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.