计算机科学 > 密码学与安全
[提交于 2024年12月31日
(v1)
,最后修订 2025年3月21日 (此版本, v2)]
标题: SPDZCoder:结合专家知识与大语言模型生成隐私计算代码
标题: SPDZCoder: Combining Expert Knowledge with LLMs for Generating Privacy-Computing Code
摘要: 隐私计算受到越来越多的关注,但由于库函数有限,编写隐私计算代码对开发人员来说仍然具有挑战性,需要从头实现功能,并且有数据无关的要求,这与程序员的直觉思维和常规做法相矛盾。 使用大型语言模型自动生成隐私计算代码可以简化开发工作并降低使用隐私计算框架的门槛。 然而,现有的大型语言模型在隐私保护计算的代码翻译方面仍然面临挑战,例如将 Python 翻译为 MP-SPDZ,这是由于有效预训练或微调所需的 MP-SPDZ 数据不足。 此外,缺乏基准进一步增加了评估翻译质量的难度。 为了解决这些限制,本工作提出了 SPDZCoder,这是一个基于规则的框架,结合了大型语言模型和专家知识,用于生成无需额外训练数据的隐私计算代码。 具体而言,SPDZCoder 采用了一套严格的流程来收集高质量的专家知识,以表示 Python 和 MP-SPDZ 之间的语义表达差异,并基于这些知识推导出将 Python 翻译为 MP-SPDZ 的转换规则。 然后,SPDZCoder 使用转换规则在三个阶段的流水线中逐步将 Python 代码转换为 MP-SPDZ 代码。 为了评估 SPDZCoder,我们手动构建了一个基准数据集 SPDZEval,该数据集包含六个数据分割,每个分割代表 MP-SPDZ 实现中一类具有挑战性的任务。 大量实验表明,SPDZCoder 表现出卓越的性能,在 pass@1 和 pass@2 上显著优于基线方法。 具体而言,SPDZCoder 在 pass@1 和 pass@2 上的整体正确率分别为 85.94% 和 92.01%,而表现最好的基线方法分别达到 63.58% 和 76.36%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.