计算机科学 > 机器学习
[提交于 2025年6月4日
]
标题: 提示设计是否会影响LLMs的数据填补质量?
标题: Does Prompt Design Impact Quality of Data Imputation by LLMs?
摘要: 生成逼真的合成表格数据在机器学习中提出了一个关键挑战。当这些数据包含类别不平衡问题时,这又增加了一层复杂性。 本文提出了一种新的基于标记感知的数据填补方法,该方法利用了大型语言模型的上下文学习能力。这是通过结合结构化的组别CSV风格提示技术和消除输入提示中的无关上下文信息来实现的。 我们使用两个类别不平衡的二元分类数据集测试了这种方法,并使用基于分类的评估指标评估了填补的有效性。 实验结果表明,与我们的基线提示相比,我们的方法在保持或提高填补质量的同时,显著减少了输入提示的大小,特别是在相对较小的数据集上尤其如此。 这项工作的贡献是双重的——1)它揭示了在利用LLMs进行合成数据生成时提示设计的重要性;2)它通过提供一种在计算约束内的实用解决方案,解决了LLM在处理类别不平衡且有缺失数据的数据集时数据填补的关键空白。 我们希望我们的工作能促进关于利用LLMs和提示工程技巧进行合成数据生成的进一步研究和讨论。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.