计算机科学 > 机器学习
[提交于 2025年7月4日
(v1)
,最后修订 2025年7月9日 (此版本, v2)]
标题: 基于强化学习的科学数据特征生成算法
标题: Reinforcement Learning-based Feature Generation Algorithm for Scientific Data
摘要: 特征生成(FG)旨在通过构建高阶特征组合并去除冗余特征来增强原始数据的预测潜力。它是表格型科学数据的关键预处理步骤,以提高下游机器学习模型的性能。传统方法在处理科学数据的特征生成时面临以下两个挑战:首先,科学数据中有效构建高阶特征组合需要深刻且广泛的专业领域知识。其次,随着特征组合的阶数增加,搜索空间呈指数级扩展,导致人力消耗巨大。数据驱动的人工智能(DCAI)范式的进展为自动化特征生成过程开辟了新途径。受此启发,本文重新审视传统的特征生成工作流程,并提出了多智能体特征生成(MAFG)框架。具体而言,在迭代探索阶段,多智能体会协作构建数学变换方程,合成并识别表现出高信息量的特征组合,并利用强化学习机制演化其策略。在完成探索阶段后,MAFG整合大语言模型(LLMs)对每个重要模型性能突破生成的特征进行解释性评估。实验结果和案例研究一致表明,MAFG框架能够有效自动化特征生成过程,并显著提升各种下游科学数据挖掘任务。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.