计算机科学 > 计算与语言
[提交于 2024年12月30日
(此版本)
, 最新版本 2025年3月20日 (v2)
]
标题: 文本分类流程:从浅层开始逐步深入
标题: The Text Classification Pipeline: Starting Shallow going Deeper
摘要: 文本分类(TC)在自然语言处理(NLP)领域中占据着核心地位,尤其是在计算机科学和工程的视角下。过去十年中,深度学习彻底改变了TC,推动了文本检索、分类、信息提取和摘要等方面的进步。学术文献中充满了数据集、模型和评估标准,尽管研究涉及阿拉伯语、汉语、印地语等其他语言,但英语仍然是主要关注的语言。TC模型的有效性很大程度上依赖于其捕捉复杂文本关系和非线性相关性的能力,这需要对整个TC流程进行全面考察。本专著深入探讨了TC流程,特别强调评估每个组件对TC模型整体性能的影响。流程包括最先进的数据集、文本预处理技术、文本表示方法、分类模型、评估指标、当前结果和未来趋势。每一章都细致地考察了这些阶段,展示了技术创新和重要的最新发现。这项工作批判性地评估了各种分类策略,提供了比较分析、示例、案例研究和实验评估。这些贡献超越了一般的综述,提供了对TC的详细而有见地的探索。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.