计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月30日
]
标题: 房间场景发现与分组在非结构化度假租赁图像集合中
标题: Room Scene Discovery and Grouping in Unstructured Vacation Rental Image Collections
摘要: 随着度假租赁(VR)平台的迅速增长,房产图片的数量不断增加,这些图片通常没有结构化的分类。这种缺乏组织的情况给旅行者理解房产的空间布局带来了重大挑战,尤其是在存在多个相同类型的房间时。为了解决这个问题,我们引入了一种有效的解决方案,用于解决房间场景发现和分组问题,以及识别每个卧室组内的床型。这种分组对于旅行者理解房产的空间组织、布局和睡眠配置是有价值的。我们提出了一个计算效率高的机器学习流程,其特点是低延迟和能够以样本高效学习的方式有效运行,使其非常适合实时和数据稀缺的环境。该流程集成了一个监督的房间类型检测模型、一个监督的重叠检测模型,用于识别两张图像之间的重叠相似性,以及一个聚类算法,使用相似性分数将同一空间的图像分组在一起。此外,该流程基于视觉内容,利用多模态大语言模型(MLLM)模型,将每个卧室组映射到房产元数据中指定的相应床型。我们分别评估了上述模型,并全面评估了整个流程,观察到性能强劲,显著优于对比学习和使用预训练嵌入进行聚类等现有方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.