Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.01832v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.01832v1 (cs)
[提交于 2025年1月3日 ]

标题: 时间序列语言模型用于描述性标题生成

标题: Time Series Language Model for Descriptive Caption Generation

Authors:Mohamed Trabelsi, Aidan Boyd, Jin Cao, Huseyin Uzunalioglu
摘要: 时间序列数据中可观察模式的代表性自然语言描述的自动生成增强了可解释性,简化了分析,并提高了时间数据的跨领域实用性。 尽管预训练基础模型在自然语言处理(NLP)和计算机视觉(CV)方面取得了显著进展,但数据稀缺性阻碍了它们在时间序列分析中的应用。 虽然已经提出了几种基于大型语言模型(LLM)的时间序列预测方法,但在LLM背景下,时间序列字幕生成仍研究不足。 在本文中,我们介绍了TSLM,这是一种专为时间序列字幕设计的新颖时间序列语言模型。 TSLM作为一个编码器-解码器模型运行,利用文本提示和时间序列数据表示来捕捉多个阶段的细微时间模式,并生成对时间序列输入的精确文本描述。 TSLM通过首先利用上下文提示合成数据生成,其次通过一种新颖的跨模态密集检索评分对时间序列-字幕对进行去噪,解决了时间序列字幕生成中的数据稀缺问题。 在各种时间序列字幕数据集上的实验结果表明,TSLM在多个数据模态下显著优于现有的最先进方法。
摘要: The automatic generation of representative natural language descriptions for observable patterns in time series data enhances interpretability, simplifies analysis and increases cross-domain utility of temporal data. While pre-trained foundation models have made considerable progress in natural language processing (NLP) and computer vision (CV), their application to time series analysis has been hindered by data scarcity. Although several large language model (LLM)-based methods have been proposed for time series forecasting, time series captioning is under-explored in the context of LLMs. In this paper, we introduce TSLM, a novel time series language model designed specifically for time series captioning. TSLM operates as an encoder-decoder model, leveraging both text prompts and time series data representations to capture subtle temporal patterns across multiple phases and generate precise textual descriptions of time series inputs. TSLM addresses the data scarcity problem in time series captioning by first leveraging an in-context prompting synthetic data generation, and second denoising the generated data via a novel cross-modal dense retrieval scoring applied to time series-caption pairs. Experimental findings on various time series captioning datasets demonstrate that TSLM outperforms existing state-of-the-art approaches from multiple data modalities by a significant margin.
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG)
引用方式: arXiv:2501.01832 [cs.CL]
  (或者 arXiv:2501.01832v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.01832
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mohamed Trabelsi [查看电子邮件]
[v1] 星期五, 2025 年 1 月 3 日 14:34:30 UTC (1,421 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号