Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1208.1259

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:1208.1259 (cs)
[提交于 2012年8月6日 ]

标题: 一种排列哈希用于高效搜索和学习

标题: One Permutation Hashing for Efficient Search and Learning

Authors:Ping Li, Art Owen, Cun-Hui Zhang
摘要: 最近,b位最小值哈希方法已被应用于大规模线性学习和子线性时间近邻搜索。 最小值哈希的主要缺点是昂贵的预处理成本,因为该方法需要在数据上应用(例如)k=200到500次排列。 如果新的数据点(例如,新的文档或图像)未被处理,则测试时间也可能很昂贵,这在面向用户的应用程序中可能是一个重大问题。 我们基于单排列哈希开发了一个非常简单的解决方案。 从概念上讲,给定一个巨大的二进制数据矩阵,我们只对列进行一次排列,并将排列后的列均匀地分成k个桶;对于每个数据向量,我们简单地存储每个桶中最小的非零位置。 有趣的概率分析(通过实验验证)表明,我们的单排列方案应该与原始的(k-排列)最小值哈希表现得非常相似。 事实上,由于“无放回抽样”的效果,单排列方案甚至可以稍微更准确一些。 我们在webspam数据集上使用线性SVM和支持向量机逻辑回归的实验表明,这个单排列哈希方案可以实现与原始k-排列方案相同(甚至略微更好)的准确性。 为了测试我们方法的鲁棒性,我们还使用了非常稀疏的小型news20数据集,每个数据向量平均仅有大约500个非零元素。 有趣的是,在news20数据集上,当k不太小时,我们的单排列方案明显优于k-排列方案。 总之,我们的方法可以在仅为原始预处理成本的1/k的情况下实现至少与原始k-排列方案相同的精度。
摘要: Recently, the method of b-bit minwise hashing has been applied to large-scale linear learning and sublinear time near-neighbor search. The major drawback of minwise hashing is the expensive preprocessing cost, as the method requires applying (e.g.,) k=200 to 500 permutations on the data. The testing time can also be expensive if a new data point (e.g., a new document or image) has not been processed, which might be a significant issue in user-facing applications. We develop a very simple solution based on one permutation hashing. Conceptually, given a massive binary data matrix, we permute the columns only once and divide the permuted columns evenly into k bins; and we simply store, for each data vector, the smallest nonzero location in each bin. The interesting probability analysis (which is validated by experiments) reveals that our one permutation scheme should perform very similarly to the original (k-permutation) minwise hashing. In fact, the one permutation scheme can be even slightly more accurate, due to the "sample-without-replacement" effect. Our experiments with training linear SVM and logistic regression on the webspam dataset demonstrate that this one permutation hashing scheme can achieve the same (or even slightly better) accuracies compared to the original k-permutation scheme. To test the robustness of our method, we also experiment with the small news20 dataset which is very sparse and has merely on average 500 nonzeros in each data vector. Interestingly, our one permutation scheme noticeably outperforms the k-permutation scheme when k is not too small on the news20 dataset. In summary, our method can achieve at least the same accuracy as the original k-permutation scheme, at merely 1/k of the original preprocessing cost.
主题: 机器学习 (cs.LG) ; 信息检索 (cs.IR); 信息论 (cs.IT); 计算 (stat.CO); 机器学习 (stat.ML)
引用方式: arXiv:1208.1259 [cs.LG]
  (或者 arXiv:1208.1259v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.1208.1259
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ping Li [查看电子邮件]
[v1] 星期一, 2012 年 8 月 6 日 12:28:06 UTC (194 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
math
< 上一篇   |   下一篇 >
新的 | 最近的 | 2012-08
切换浏览方式为:
cs
cs.IR
cs.IT
cs.LG
math.IT
stat
stat.CO
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号