计算机科学 > 人工智能
[提交于 2025年7月7日
]
标题: ChipSeek-R1:通过分层奖励驱动强化学习生成超越人类的RTL
标题: ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning
摘要: 大型语言模型(LLMs)在自动化寄存器传输级(RTL)代码生成方面展现出显著的潜力。 然而,当前的方法面临一个关键挑战:它们无法同时优化功能正确性和硬件质量(功耗、性能、面积 - PPA)。 基于监督微调的方法通常生成功能正确但PPA次优的代码,缺乏学习优化原则的机制。 相比之下,试图在生成后改进PPA指标的后处理技术通常效率低下,因为它们在不更新LLM参数的情况下外部运行,从而无法提升模型的内在设计能力。 为了弥补这一差距,我们引入了ChipSeek-R1,这是一种分层奖励驱动的强化学习框架,用于训练LLMs生成同时实现功能正确性和优化PPA指标的RTL代码。 ChipSeek-R1采用分层奖励系统,在强化学习过程中结合对语法、功能正确性(来自仿真器)和PPA指标(来自综合工具)的直接反馈。 这使得模型能够通过试错学习复杂的硬件设计权衡,生成既功能正确又PPA优化的RTL代码。 在标准基准测试(VerilogEval,RTLLM)上评估ChipSeek-R1,我们在功能正确性方面取得了最先进的结果。 值得注意的是,在RTLLM基准测试中,ChipSeek-R1生成的27个RTL设计在PPA指标上超过了原始人工编写的代码。 我们的研究结果证明了将工具链反馈整合到LLM训练中的有效性,并突显了强化学习在实现超越人类的RTL代码自动生成方面的潜力。 我们将在匿名GitHub上开源我们的代码。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.