计算机科学 > 计算与语言
[提交于 2025年10月23日
]
标题: 用户对LLM在隐私敏感场景中的响应的隐私和帮助性的感知
标题: User Perceptions of Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios
摘要: 大型语言模型(LLMs)已被广泛用于起草电子邮件、总结会议和回答健康问题等任务。 在这些使用场景中,用户可能需要分享私人信息(例如,健康记录、联系方式)。 为了评估LLMs识别和删除此类私人信息的能力,先前的研究开发了基准测试(例如,ConfAIde、PrivacyLens),包含真实生活场景。 利用这些基准测试,研究人员发现,当处理复杂任务时,LLMs有时无法保持机密信息的私密性(例如,在会议总结中泄露员工工资)。 然而,这些评估依赖于LLMs(代理LLMs)来衡量对隐私规范的遵守情况,忽视了真实用户的感知。 此外,先前的研究主要关注响应的隐私保护质量,而没有探讨在帮助性方面的细微差异。 为了了解用户如何感知LLMs在隐私敏感场景中的隐私保护质量和帮助性,我们进行了一项用户研究,共有94名参与者,使用了来自PrivacyLens的90个场景。 我们发现,当评估对同一场景的相同响应时,用户在LLM响应的隐私保护质量和帮助性方面彼此之间的同意度较低。 此外,我们发现五个代理LLMs之间有高度一致的同意度,而每个单独的LLM与用户的评估相关性较低。 这些结果表明,LLM响应的隐私性和帮助性通常因人而异,代理LLMs是衡量真实用户在隐私敏感场景中对这些响应的感知的不良估计。 我们的结果表明,需要开展以用户为中心的研究,以测量LLMs在帮助用户的同时保护隐私的能力。 此外,未来的研究可以探索改进代理LLMs与用户之间对齐的方法,以更好地估计用户感知到的隐私和效用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.