计算机科学 > 硬件架构
[提交于 2025年7月6日
]
标题: FIXME:面向端到端的LLM辅助设计验证基准测试
标题: FIXME: Towards End-to-End Benchmarking of LLM-Aided Design Verification
摘要: 尽管大型语言模型(LLMs)在硬件设计中的变革潜力巨大,但对其在设计验证方面能力的全面评估仍缺乏深入研究。 当前的努力主要集中在RTL生成和基本调试上,忽视了功能验证这一关键领域,由于硬件复杂性的迅速提升,功能验证是现代设计方法的主要瓶颈。 我们提出了FIXME,第一个端到端、多模型和开源的评估框架,用于评估LLM在硬件功能验证(FV)中的性能,以解决这一关键差距。 FIXME引入了一个结构化的三级难度层次,涵盖六个验证子领域和180个多样化的任务,使设计生命周期内的深入分析成为可能。 通过协作的人工智能与人类方法,我们使用100%经过硅验证的设计构建了一个高质量的数据集,确保全面覆盖现实世界中的挑战。 此外,通过专家指导的优化,我们将功能覆盖率提高了45.57%。 通过对最先进的LLMs如GPT-4、Claude3和LlaMA3进行严格评估,我们确定了需要改进的关键领域,并指出了有希望的研究方向,以释放LLM驱动的自动化在硬件设计验证中的全部潜力。 该基准测试可在https://github.com/ChatDesignVerification/FIXME获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.