计算机科学 > 机器学习
[提交于 2012年8月6日
]
标题: 一种排列哈希用于高效搜索和学习
标题: One Permutation Hashing for Efficient Search and Learning
摘要: 最近,b位最小值哈希方法已被应用于大规模线性学习和子线性时间近邻搜索。 最小值哈希的主要缺点是昂贵的预处理成本,因为该方法需要在数据上应用(例如)k=200到500次排列。 如果新的数据点(例如,新的文档或图像)未被处理,则测试时间也可能很昂贵,这在面向用户的应用程序中可能是一个重大问题。 我们基于单排列哈希开发了一个非常简单的解决方案。 从概念上讲,给定一个巨大的二进制数据矩阵,我们只对列进行一次排列,并将排列后的列均匀地分成k个桶;对于每个数据向量,我们简单地存储每个桶中最小的非零位置。 有趣的概率分析(通过实验验证)表明,我们的单排列方案应该与原始的(k-排列)最小值哈希表现得非常相似。 事实上,由于“无放回抽样”的效果,单排列方案甚至可以稍微更准确一些。 我们在webspam数据集上使用线性SVM和支持向量机逻辑回归的实验表明,这个单排列哈希方案可以实现与原始k-排列方案相同(甚至略微更好)的准确性。 为了测试我们方法的鲁棒性,我们还使用了非常稀疏的小型news20数据集,每个数据向量平均仅有大约500个非零元素。 有趣的是,在news20数据集上,当k不太小时,我们的单排列方案明显优于k-排列方案。 总之,我们的方法可以在仅为原始预处理成本的1/k的情况下实现至少与原始k-排列方案相同的精度。
当前浏览上下文:
cs.LG
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.