Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.18655

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2508.18655 (cs)
[提交于 2025年8月26日 ]

标题: 情感全能:通过大型语言模型实现共情语音响应生成

标题: Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models

Authors:Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo
摘要: 随着语音大语言模型(语音LLMs)的发展,用户现在可以通过语音直接与助手进行交互。 然而,大多数现有模型只是将响应内容转换为语音,而没有充分理解用户查询中嵌入的丰富情感和副语言线索。 在许多情况下,同一句话可以根据情感表达的不同而具有不同的含义。 此外,情感理解对于提升人机交互中的用户体验至关重要。 目前,具有同理心能力的语音LLMs大多是在大规模数据集上训练的。 这种方法需要大量的数据和巨大的计算资源。 因此,一个关键挑战是如何在数据有限且不需要大规模训练的情况下开发出能够生成同理心响应的语音LLMs。 为了解决这个挑战,我们提出了Emotion Omni,一种新的模型架构,旨在理解用户语音输入的情感内容并生成同理心的语音响应。 此外,我们开发了一个基于开源TTS框架的数据生成管道,以构建一个20万条情感对话数据集,该数据集支持构建一个同理心语音助手。 演示地址为https://w311411.github.io/omni_demo/
摘要: With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-machine interaction. Currently, most speech LLMs with empathetic capabilities are trained on massive datasets. This approach requires vast amounts of data and significant computational resources. Therefore, a key challenge lies in how to develop a speech LLM capable of generating empathetic responses with limited data and without the need for large-scale training. To address this challenge, we propose Emotion Omni, a novel model architecture designed to understand the emotional content of user speech input and generate empathetic speech responses. Additionally, we developed a data generation pipeline based on an open-source TTS framework to construct a 200k emotional dialogue dataset, which supports the construction of an empathetic speech assistant. The demos are available at https://w311411.github.io/omni_demo/
评论: 5页,1图,提交至ICASSP 2026
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD); 音频与语音处理 (eess.AS)
MSC 类: I.2.7
引用方式: arXiv:2508.18655 [cs.CL]
  (或者 arXiv:2508.18655v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.18655
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Haoyu Wang [查看电子邮件]
[v1] 星期二, 2025 年 8 月 26 日 03:54:39 UTC (166 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.SD
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号