Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:1208.2873

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:1208.2873 (cs)
[提交于 2012年8月13日 ]

标题: 使用统计学习方法检测大规模用户生成文本流中的事件和模式

标题: Detecting Events and Patterns in Large-Scale User Generated Textual Streams with Statistical Learning Methods

Authors:Vasileios Lampos
摘要: 大量文本网络流受到现实世界中出现的事件或现象的影响。 社交网络形成了一个极好的现代范例,在其中非结构化的用户生成内容定期发布,并且在大多数情况下自由传播。 本博士学位论文探讨了基于这些文本流内容推断现实生活中的事件信息——或一般模式的问题。 我们展示了通过使用统计机器学习方法,自动分析社交媒体(特别是Twitter)上发布的文本内容,可以提取关于社会现象的有价值的信息,例如流行病或甚至降雨率。 一个重要的中间任务涉及形成和识别特征,这些特征表征目标事件;我们在多种线性、非线性和混合推理方法中选择并使用这些文本特征,从而在应用的损失函数方面取得了显著良好的性能。 通过进一步检查此丰富的数据集,我们还提出了提取各种情绪信号的方法,揭示情感规范(至少在社交网络人群中)如何随时间演变以及现实世界中发生的重大事件如何影响它们。 最后,我们展示了一些初步发现,显示了这种文本信息的空间时间特性以及将其用于解决诸如预测投票意向等任务的潜力。
摘要: A vast amount of textual web streams is influenced by events or phenomena emerging in the real world. The social web forms an excellent modern paradigm, where unstructured user generated content is published on a regular basis and in most occasions is freely distributed. The present Ph.D. Thesis deals with the problem of inferring information - or patterns in general - about events emerging in real life based on the contents of this textual stream. We show that it is possible to extract valuable information about social phenomena, such as an epidemic or even rainfall rates, by automatic analysis of the content published in Social Media, and in particular Twitter, using Statistical Machine Learning methods. An important intermediate task regards the formation and identification of features which characterise a target event; we select and use those textual features in several linear, non-linear and hybrid inference approaches achieving a significantly good performance in terms of the applied loss function. By examining further this rich data set, we also propose methods for extracting various types of mood signals revealing how affective norms - at least within the social web's population - evolve during the day and how significant events emerging in the real world are influencing them. Lastly, we present some preliminary findings showing several spatiotemporal characteristics of this textual information as well as the potential of using it to tackle tasks such as the prediction of voting intentions.
评论: 博士论文,238页,9章,2个附录,58幅图,49张表格
主题: 机器学习 (cs.LG) ; 计算与语言 (cs.CL); 信息检索 (cs.IR); 社会与信息网络 (cs.SI); 应用 (stat.AP); 机器学习 (stat.ML)
引用方式: arXiv:1208.2873 [cs.LG]
  (或者 arXiv:1208.2873v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.1208.2873
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Vasileios Lampos [查看电子邮件]
[v1] 星期一, 2012 年 8 月 13 日 18:59:54 UTC (4,698 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2012-08
切换浏览方式为:
cs
cs.CL
cs.IR
cs.SI
stat
stat.AP
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号