Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.01108

帮助 | 高级搜索

计算机科学 > 数据结构与算法

arXiv:2508.01108 (cs)
[提交于 2025年8月1日 ]

标题: 高效直接访问的排序检索

标题: Efficient Direct-Access Ranked Retrieval

Authors:Mohsen Dehghankar, Raghav Mittal, Suraj Shetiya, Abolfazl Asudeh, Gautam Das
摘要: 我们研究了交互式数据工具中的直接访问排序检索(DAR)问题,其中不断变化的数据探索实践,结合大规模和高维数据集,带来了新的挑战。 DAR关注的是根据排序函数实现对任意排名位置的高效访问,而无需枚举所有前面的元组。 为了解决这一需求,我们形式化了DAR问题,并提出了一种基于几何排列的理论高效算法,实现了对数查询时间。 然而,这种方法在高维情况下存在指数级的空间复杂度。 因此,我们开发了第二类基于$\varepsilon$采样的算法,其空间消耗呈线性增长。 由于精确定位特定排名的元组具有挑战性,这与其与范围计数问题的关联有关,我们引入了一个称为一致集排序检索(CSR)的松弛变体,该变体返回一个保证包含目标元组的小子集。 为了高效解决CSR问题,我们定义了一个中间问题,条带范围检索(SRR),并设计了一个针对窄范围查询的分层采样数据结构。 我们的方法在数据规模和维度上都实现了实际的可扩展性。 我们证明了算法效率的近似最优界限,并通过在真实和合成数据集上的大量实验验证了其性能,展示了对数百万元组和数百维度的可扩展性。
摘要: We study the problem of Direct-Access Ranked Retrieval (DAR) for interactive data tooling, where evolving data exploration practices, combined with large-scale and high-dimensional datasets, create new challenges. DAR concerns the problem of enabling efficient access to arbitrary rank positions according to a ranking function, without enumerating all preceding tuples. To address this need, we formalize the DAR problem and propose a theoretically efficient algorithm based on geometric arrangements, achieving logarithmic query time. However, this method suffers from exponential space complexity in high dimensions. Therefore, we develop a second class of algorithms based on $\varepsilon$-sampling, which consume a linear space. Since exactly locating the tuple at a specific rank is challenging due to its connection to the range counting problem, we introduce a relaxed variant called Conformal Set Ranked Retrieval (CSR), which returns a small subset guaranteed to contain the target tuple. To solve the CSR problem efficiently, we define an intermediate problem, Stripe Range Retrieval (SRR), and design a hierarchical sampling data structure tailored for narrow-range queries. Our method achieves practical scalability in both data size and dimensionality. We prove near-optimal bounds on the efficiency of our algorithms and validate their performance through extensive experiments on real and synthetic datasets, demonstrating scalability to millions of tuples and hundreds of dimensions.
主题: 数据结构与算法 (cs.DS) ; 计算几何 (cs.CG); 数据库 (cs.DB)
引用方式: arXiv:2508.01108 [cs.DS]
  (或者 arXiv:2508.01108v1 [cs.DS] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.01108
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Mohsen Dehghankar [查看电子邮件]
[v1] 星期五, 2025 年 8 月 1 日 23:03:42 UTC (3,980 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.DS
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CG
cs.DB

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号