计算机科学 > 神经与进化计算
[提交于 2025年1月20日
]
标题: 超越炒作:对 bin packing 的 LLM 演化启发式方法的基准测试
标题: Beyond the Hype: Benchmarking LLM-Evolved Heuristics for Bin Packing
摘要: 将大型语言模型(LLMs)与进化算法相结合,最近显示出作为设计新启发式方法的显著前景,这些方法在组合优化领域优于现有方法。 一种不断升级的竞赛正在迅速产生新的启发式方法,并提高进化它们的过程的效率。 然而,由于希望快速展示新方法的优势,对特定领域产生的新启发式方法的评估通常很粗略:仅在非常少的数据集上进行测试,这些数据集中的实例都属于该领域的特定类别,且每个类别中的实例数量也很少。 以装箱问题为例,据我们所知,我们进行了首次对新LLM生成的启发式方法的严格基准测试研究,使用三个性能指标,在大量基准实例上将其与众所周知的现有启发式方法进行比较。 对于每种启发式方法,我们随后进化出被该启发式方法赢得的新实例,并进行实例空间分析,以了解每种启发式方法在特征空间中的表现良好区域。 我们表明,与现有的简单启发式方法相比,大多数LLM启发式方法在广泛范围的基准测试中泛化效果不佳,并建议,任何从仅在实例空间小区域起作用的非常专业启发式方法中获得的收益,都需要仔细权衡生成这些启发式方法的相当大的成本。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.