计算机科学 > 计算机视觉与模式识别
[提交于 2024年5月6日
]
标题: 基于视觉语言模型的跨模态语义通信系统
标题: Visual Language Model based Cross-modal Semantic Communication Systems
摘要: 语义通信(SC)近年来已成为一种新的通信范式,通过创新的语义传输概念成功超越了香农物理容量极限。 然而,现有的图像语义通信(ISC)系统在动态环境中面临一些挑战,包括语义密度低、灾难性遗忘和不确定的信噪比(SNR)。 为了解决这些挑战,我们提出了一种基于视觉-语言模型的跨模态语义通信(VLM-CSC)系统。 VLM-CSC包含三个新组件:(1)跨模态知识库(CKB)用于从发射端语义稀疏的图像中提取高密度文本语义,并在接收端基于文本语义重建原始图像。高密度语义的传输有助于缓解带宽压力。 (2)基于记忆的编码器和解码器(MED)采用混合长/短期记忆机制,使语义编码器和解码器在语义特征分布发生漂移时能够克服灾难性遗忘。 (3)噪声注意力模块(NAM)利用注意力机制根据SNR自适应调整语义编码和信道编码,确保CSC系统的鲁棒性。 实验模拟验证了CSC系统的有效性、适应性和鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.