计算机科学 > 机器学习
[提交于 2020年3月6日
]
标题: 从学术大数据中衍生的自动机器学习
标题: Automatic Machine Learning Derived from Scholarly Big Data
摘要: 应用机器学习的一个挑战性方面是需要确定在给定数据集上表现最佳的算法。 这个过程可能困难、耗时,并且通常需要大量的领域知识。 我们提出了Sommelier,一个用于推荐应在之前未见过的数据集上应用的机器学习算法的专家系统。 Sommelier基于从大量学术出版物语料库中提取的领域知识的词嵌入表示。 当提供一个新的数据集及其问题描述时,Sommelier利用在词嵌入表示上训练的推荐模型,为数据集提供最相关算法的排名列表。 我们通过在121个公开可用的数据集和53个分类算法上进行广泛评估来展示Sommelier的有效性。 Sommelier为每个数据集推荐的顶级算法平均能够达到所有被调查算法最优准确率的97.7%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.