计算机科学 > 机器学习
[提交于 2012年8月13日
]
标题: 使用统计学习方法检测大规模用户生成文本流中的事件和模式
标题: Detecting Events and Patterns in Large-Scale User Generated Textual Streams with Statistical Learning Methods
摘要: 大量文本网络流受到现实世界中出现的事件或现象的影响。 社交网络形成了一个极好的现代范例,在其中非结构化的用户生成内容定期发布,并且在大多数情况下自由传播。 本博士学位论文探讨了基于这些文本流内容推断现实生活中的事件信息——或一般模式的问题。 我们展示了通过使用统计机器学习方法,自动分析社交媒体(特别是Twitter)上发布的文本内容,可以提取关于社会现象的有价值的信息,例如流行病或甚至降雨率。 一个重要的中间任务涉及形成和识别特征,这些特征表征目标事件;我们在多种线性、非线性和混合推理方法中选择并使用这些文本特征,从而在应用的损失函数方面取得了显著良好的性能。 通过进一步检查此丰富的数据集,我们还提出了提取各种情绪信号的方法,揭示情感规范(至少在社交网络人群中)如何随时间演变以及现实世界中发生的重大事件如何影响它们。 最后,我们展示了一些初步发现,显示了这种文本信息的空间时间特性以及将其用于解决诸如预测投票意向等任务的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.