计算机科学 > 机器学习
[提交于 2025年7月14日
]
标题: 基于信息理论原则的关系数据预训练框架
标题: A Pre-training Framework for Relational Data with Information-theoretic Principles
摘要: 关系型数据库支撑着多个领域中的关键基础设施,但由于任务异质性,设计可泛化的预训练策略以从关系型数据库中学习仍然是一个开放挑战。 具体而言,存在无限多的可能下游任务,因为任务是基于关系模式图、时间依赖性和SQL定义的标签逻辑来定义的。 需要一种有效的预训练框架,以考虑这些因素,从而获得任务感知的表示。 通过结合驱动标签生成的基础分布的知识,下游任务可以受益于相关的侧信道信息。 为弥合这一差距,我们引入了任务向量估计(TVE),这是一种新颖的预训练框架,通过在模式遍历图上的集合聚合构建预测监督信号,显式建模下一个窗口的关系动态。 我们通过信息论的角度形式化了我们的方法,证明了任务知情表示比没有任务先验获得的表示保留了更多的相关信号。 在RelBench基准上的大量实验表明,TVE始终优于传统的预训练基线。 我们的研究结果提倡将任务异质性和时间结构作为设计原则,纳入关系型数据库上预测建模的预训练目标。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.