Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00263

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.00263 (cs)
[提交于 2025年6月30日 ]

标题: 房间场景发现与分组在非结构化度假租赁图像集合中

标题: Room Scene Discovery and Grouping in Unstructured Vacation Rental Image Collections

Authors:Vignesh Ram Nithin Kappagantula, Shayan Hassantabar
摘要: 随着度假租赁(VR)平台的迅速增长,房产图片的数量不断增加,这些图片通常没有结构化的分类。这种缺乏组织的情况给旅行者理解房产的空间布局带来了重大挑战,尤其是在存在多个相同类型的房间时。为了解决这个问题,我们引入了一种有效的解决方案,用于解决房间场景发现和分组问题,以及识别每个卧室组内的床型。这种分组对于旅行者理解房产的空间组织、布局和睡眠配置是有价值的。我们提出了一个计算效率高的机器学习流程,其特点是低延迟和能够以样本高效学习的方式有效运行,使其非常适合实时和数据稀缺的环境。该流程集成了一个监督的房间类型检测模型、一个监督的重叠检测模型,用于识别两张图像之间的重叠相似性,以及一个聚类算法,使用相似性分数将同一空间的图像分组在一起。此外,该流程基于视觉内容,利用多模态大语言模型(MLLM)模型,将每个卧室组映射到房产元数据中指定的相应床型。我们分别评估了上述模型,并全面评估了整个流程,观察到性能强劲,显著优于对比学习和使用预训练嵌入进行聚类等现有方法。
摘要: The rapid growth of vacation rental (VR) platforms has led to an increasing volume of property images, often uploaded without structured categorization. This lack of organization poses significant challenges for travelers attempting to understand the spatial layout of a property, particularly when multiple rooms of the same type are present. To address this issue, we introduce an effective approach for solving the room scene discovery and grouping problem, as well as identifying bed types within each bedroom group. This grouping is valuable for travelers to comprehend the spatial organization, layout, and the sleeping configuration of the property. We propose a computationally efficient machine learning pipeline characterized by low latency and the ability to perform effectively with sample-efficient learning, making it well-suited for real-time and data-scarce environments. The pipeline integrates a supervised room-type detection model, a supervised overlap detection model to identify the overlap similarity between two images, and a clustering algorithm to group the images of the same space together using the similarity scores. Additionally, the pipeline maps each bedroom group to the corresponding bed types specified in the property's metadata, based on the visual content present in the group's images using a Multi-modal Large Language Model (MLLM) model. We evaluate the aforementioned models individually and also assess the pipeline in its entirety, observing strong performance that significantly outperforms established approaches such as contrastive learning and clustering with pretrained embeddings.
主题: 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG); 神经与进化计算 (cs.NE)
引用方式: arXiv:2507.00263 [cs.CV]
  (或者 arXiv:2507.00263v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00263
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Vignesh Ram Nithin Kappagantula [查看电子邮件]
[v1] 星期一, 2025 年 6 月 30 日 21:11:35 UTC (7,281 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.LG
cs.NE

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号