Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.04166

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.04166 (cs)
[提交于 2025年8月6日 ]

标题: 毒标签:利用丰富标签注释解码有毒表情包

标题: ToxicTAGS: Decoding Toxic Memes with Rich Tag Annotations

Authors:Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee
摘要: 2025年全球风险报告将基于国家的武装冲突和社会分化列为最紧迫的全球威胁,社交媒体在放大有害言论中起着核心作用。 模因作为一种广泛使用的在线交流方式,经常作为传播有害内容的载体。 然而,数据可及性的限制和数据集整理的高昂成本阻碍了强大模因审核系统的开发。 为了解决这一挑战,本文我们引入了一个首创的数据集,包含6300个真实世界的基于模因的帖子,并进行了两阶段的标注:(i) 有毒和正常内容的二分类,(ii) 对有毒模因进行细粒度标注,分为仇恨、危险或冒犯性。 该数据集的一个关键特点是,它通过社会相关标签的辅助元数据进行了丰富,增强了每个模因的上下文。 此外,我们提出了一种标签生成模块,可以生成基于社会的标签,因为大多数现实中的模因通常不带标签。 实验结果表明,结合这些标签显著提高了最先进的视觉语言模型检测任务的性能。 我们的贡献为多模态在线环境中的内容审核提供了新颖且可扩展的基础。
摘要: The 2025 Global Risks Report identifies state-based armed conflict and societal polarisation among the most pressing global threats, with social media playing a central role in amplifying toxic discourse. Memes, as a widely used mode of online communication, often serve as vehicles for spreading harmful content. However, limitations in data accessibility and the high cost of dataset curation hinder the development of robust meme moderation systems. To address this challenge, in this work, we introduce a first-of-its-kind dataset of 6,300 real-world meme-based posts annotated in two stages: (i) binary classification into toxic and normal, and (ii) fine-grained labelling of toxic memes as hateful, dangerous, or offensive. A key feature of this dataset is that it is enriched with auxiliary metadata of socially relevant tags, enhancing the context of each meme. In addition, we propose a tag generation module that produces socially grounded tags, because most in-the-wild memes often do not come with tags. Experimental results show that incorporating these tags substantially enhances the performance of state-of-the-art VLMs detection tasks. Our contributions offer a novel and scalable foundation for improved content moderation in multimodal online environments.
主题: 计算机视觉与模式识别 (cs.CV) ; 计算与语言 (cs.CL)
引用方式: arXiv:2508.04166 [cs.CV]
  (或者 arXiv:2508.04166v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.04166
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Subhankar Swain Swain [查看电子邮件]
[v1] 星期三, 2025 年 8 月 6 日 07:46:14 UTC (8,192 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号