计算机科学 > 计算与语言
[提交于 2025年8月26日
]
标题: 异构大语言模型方法用于本体学习(少样本提示、集成类型和基于注意力的分类体系)
标题: Heterogeneous LLM Methods for Ontology Learning (Few-Shot Prompting, Ensemble Typing, and Attention-Based Taxonomies)
摘要: 我们提出一个全面的系统,用于解决LLMs4OL 2025挑战中的任务A、B和C,这些任务涵盖了整个本体构建流程:术语提取、类型分配和分类体系发现。 我们的方法结合了检索增强提示、零样本分类和基于注意力的图建模——每种方法都针对相应任务的需求进行了定制。 对于任务A,我们使用检索增强生成(RAG)流程联合提取领域特定的术语及其本体类型。 训练数据被重新表述为文档到术语和类型的对应关系,而在测试时推理则利用语义相似的训练示例。 这种单次通过的方法无需模型微调,并通过词汇增强提高整体性能。任务B,即为给定术语分配类型,采用双策略处理。 在少量样本设置中(对于有标记训练数据的领域),我们重复使用RAG方案并进行少量样本提示。 在零样本设置中(对于之前未见过的领域),我们使用一个零样本分类器,该分类器通过置信度加权组合多个嵌入模型的余弦相似性得分。 在任务C中,我们将分类体系发现建模为图推理。 使用类型标签的嵌入,我们训练一个轻量级的交叉注意力层,通过近似软邻接矩阵来预测is-a关系。 这些模块化、任务特定的解决方案使我们在所有三个任务的官方排行榜上取得了顶级排名。 综合来看,这些策略展示了基于LLM的架构在异构领域本体学习中的可扩展性、适应性和鲁棒性。 代码可在以下地址获取:https://github.com/BelyaevaAlex/LLMs4OL-Challenge-Alexbek
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.