Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-fin > arXiv:2503.08696

帮助 | 高级搜索

定量金融 > 统计金融

arXiv:2503.08696 (q-fin)
[提交于 2025年3月5日 ]

标题: 多模态股票价格预测:俄罗斯证券市场的案例研究

标题: Multimodal Stock Price Prediction: A Case Study of the Russian Securities Market

Authors:Kasymkhan Khubiev, Mikhail Semenov
摘要: 经典资产价格预测方法主要依赖于数值数据,如价格时间序列、交易量、限价订单簿数据和技术分析指标。 然而,新闻流在价格形成中起着重要作用,因此开发结合文本和数值数据的多模态方法以提高预测准确性具有高度相关性。 本文研究了利用结合蜡烛图时间序列和文本新闻流数据的多模态方法进行金融资产价格预测的问题。 为该研究收集了一个独特的数据集,其中包括莫斯科交易所交易的176只俄罗斯股票的时间序列以及79,555篇俄语财经新闻文章。 对于文本数据的处理,使用了预训练模型RuBERT和Vikhr-Qwen2.5-0.5b-Instruct(大语言模型),而时间序列和向量化文本数据则使用LSTM循环神经网络进行处理。 实验比较了基于单一模态(仅时间序列)和两种模态的模型,以及各种文本向量表示的聚合方法。 预测质量通过两个关键指标进行评估:准确率(价格变动方向预测:上涨或下跌)和平均绝对百分比误差(MAPE),该指标衡量预测价格与真实价格的偏差。 实验表明,引入文本模态使MAPE值降低了55%。 所得的多模态数据集对于金融领域语言模型的进一步适应具有价值。 未来的研究方向包括优化文本模态参数,如时间窗口、情感和新闻消息的时序顺序。
摘要: Classical asset price forecasting methods primarily rely on numerical data, such as price time series, trading volumes, limit order book data, and technical analysis indicators. However, the news flow plays a significant role in price formation, making the development of multimodal approaches that combine textual and numerical data for improved prediction accuracy highly relevant. This paper addresses the problem of forecasting financial asset prices using the multimodal approach that combines candlestick time series and textual news flow data. A unique dataset was collected for the study, which includes time series for 176 Russian stocks traded on the Moscow Exchange and 79,555 financial news articles in Russian. For processing textual data, pre-trained models RuBERT and Vikhr-Qwen2.5-0.5b-Instruct (a large language model) were used, while time series and vectorized text data were processed using an LSTM recurrent neural network. The experiments compared models based on a single modality (time series only) and two modalities, as well as various methods for aggregating text vector representations. Prediction quality was estimated using two key metrics: Accuracy (direction of price movement prediction: up or down) and Mean Absolute Percentage Error (MAPE), which measures the deviation of the predicted price from the true price. The experiments showed that incorporating textual modality reduced the MAPE value by 55%. The resulting multimodal dataset holds value for the further adaptation of language models in the financial sector. Future research directions include optimizing textual modality parameters, such as the time window, sentiment, and chronological order of news messages.
评论: NSCF-2024,程序系统:理论与应用
主题: 统计金融 (q-fin.ST) ; 机器学习 (cs.LG); 计算金融 (q-fin.CP)
引用方式: arXiv:2503.08696 [q-fin.ST]
  (或者 arXiv:2503.08696v1 [q-fin.ST] 对于此版本)
  https://doi.org/10.48550/arXiv.2503.08696
通过 DataCite 发表的 arXiv DOI
期刊参考: http://psta.psiras.ru:8081/ru/2025/1_83-130
相关 DOI: https://doi.org/10.25209/2079-3316-2025-16-1-83-130
链接到相关资源的 DOI

提交历史

来自: Kasymkhan Khubiev [查看电子邮件]
[v1] 星期三, 2025 年 3 月 5 日 21:20:32 UTC (653 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-fin.ST
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-03
切换浏览方式为:
cs
cs.LG
q-fin
q-fin.CP

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号