Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00330v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00330v1 (cs)
[提交于 2024年12月31日 ]

标题: 探索多模态大语言模型的隐式语义能力:实体集扩展的初步研究

标题: Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion

Authors:Hebin Wang, Yangning Li, Yinghui Li, Hai-Tao Zheng, Wenhao Jiang, Hong-Gee Kim
摘要: 多模态大语言模型(MLLMs)的快速发展在现实应用的广泛任务中带来了显著的改进。 然而,LLMs在提取隐式语义信息方面仍然表现出一定的局限性。 在本文中,我们将MLLMs应用于多模态实体集扩展(MESE)任务,该任务旨在通过属于同一语义类的新实体扩展少量种子实体,并且每个实体都提供了多模态信息。 我们通过MESE任务探索MLLMs在实体级别粒度上理解隐式语义信息的能力,引入了一种列表排序方法LUSAR,该方法将局部得分映射到全局排名。 我们的LUSAR在MLLMs的MESE任务性能上表现出显著的提升,标志着生成式MLLM首次用于ESE任务,并扩展了列表排序的适用性。
摘要: The rapid development of multimodal large language models (MLLMs) has brought significant improvements to a wide range of tasks in real-world applications. However, LLMs still exhibit certain limitations in extracting implicit semantic information. In this paper, we apply MLLMs to the Multi-modal Entity Set Expansion (MESE) task, which aims to expand a handful of seed entities with new entities belonging to the same semantic class, and multi-modal information is provided with each entity. We explore the capabilities of MLLMs to understand implicit semantic information at the entity-level granularity through the MESE task, introducing a listwise ranking method LUSAR that maps local scores to global rankings. Our LUSAR demonstrates significant improvements in MLLM's performance on the MESE task, marking the first use of generative MLLM for ESE tasks and extending the applicability of listwise ranking.
评论: ICASSP 2025
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 信息检索 (cs.IR)
引用方式: arXiv:2501.00330 [cs.CL]
  (或者 arXiv:2501.00330v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00330
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yinghui Li [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 08:03:48 UTC (269 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI
cs.IR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号