计算机科学 > 软件工程
[提交于 2025年7月14日
]
标题: 传感器:一种基于机器学习的在线注释工具,用于从社交媒体应用的用户评论中发现隐私问题
标题: SENSOR: An ML-Enhanced Online Annotation Tool to Uncover Privacy Concerns from User Reviews in Social-Media Applications
摘要: 社交媒体应用的广泛使用引发了重要的隐私担忧,这在用户评论中经常被提及。 这些评论还为开发者提供了宝贵的见解,以通过解决这些问题并引入更好的功能来改进应用。 然而,评论的数量庞大且内容复杂,使得开发者手动识别和优先处理与隐私相关的担忧变得具有挑战性。 先前的研究开发了软件工具,利用机器学习自动将用户评论分类为与隐私相关、与隐私无关、错误报告、功能请求等。 值得注意的是,目前缺乏对将评论具体分类为与隐私相关的功能请求、与隐私相关的错误报告或与隐私无关的评论的关注。 本文介绍了SENtinel SORt (SENSOR),这是一种自动化在线标注工具,旨在帮助开发者对用户评论进行标注和分类。 为了实现此类评论的自动化标注,本文引入了标注模型GRACE(基于GRU的注意力与CBOW嵌入),该模型使用门控循环单元(GRU)结合连续词袋(CBOW)和注意力机制。 大约16000条来自Google Play商店七款流行社交媒体应用的用户评论被分析,包括Instagram、Facebook、WhatsApp、Snapchat、X(前身为Twitter)、Facebook Lite和Line。 两名标注者手动标记了这些评论,达到了Cohen's Kappa值0.87,确保了用于训练机器学习模型的高一致性标注数据集。 在测试的模型中,尽管存在类别不平衡,GRACE表现出最佳性能(宏F1分数:0.9434,宏ROC-AUC:0.9934,准确率:95.10%)。 SENSOR显示出显著的潜力,可以帮助开发者从用户评论中提取并处理与隐私相关的功能请求或错误报告,从而提升用户隐私和信任。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.