Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.00019

帮助 | 高级搜索

计算机科学 > 社会与信息网络

arXiv:2510.00019 (cs)
[提交于 2025年9月22日 ]

标题: 当生命路径交汇时:从维基百科中提取时间和空间中的人类交互

标题: When Life Paths Cross: Extracting Human Interactions in Time and Space from Wikipedia

Authors:Zhongyang Liu, Ying Zhang, Xiangyi Xiao, Wenting Liu, Yuanting Zha, Haipeng Zhang
摘要: 在著名人物之间的互动——无论是在个体、群体还是网络中进行研究——往往在文化、经济、政治、科学和历史视角下传达重要的信息。 通过分析这些互动的时间和地点,我们可以观察到不同地区随时间推移的动态变化。 然而,相关研究常常受到数据稀缺的限制,尤其是在具体地点和时间信息的可用性方面。 为了解决这个问题,我们从维基百科挖掘了数百万条传记页面,提取了以(Person1,Person2,Time,Location)形式的685,966条互动四元组记录。 这些互动的关键元素通常分散在异构的众包文本中,可能与互动松散或间接相关。 我们通过设计一种结合注意力机制、多任务学习和特征迁移方法的模型,克服了这一挑战,取得了86.51%的F1分数,这优于基线模型。 我们进一步对政治人物内部和跨党派的互动进行了实证分析,以研究美国的政治极化现象,展示了从这种数据中获得的视角可能带来的潜力。 我们公开提供代码、提取的互动数据以及包含4,507个标记互动四元组的WikiInteraction数据集。
摘要: Interactions among notable individuals -- whether examined individually, in groups, or as networks -- often convey significant messages across cultural, economic, political, scientific, and historical perspectives. By analyzing the times and locations of these interactions, we can observe how dynamics unfold across regions over time. However, relevant studies are often constrained by data scarcity, particularly concerning the availability of specific location and time information. To address this issue, we mine millions of biography pages from Wikipedia, extracting 685,966 interaction records in the form of (Person1, Person2, Time, Location) interaction quadruplets. The key elements of these interactions are often scattered throughout the heterogeneous crowd-sourced text and may be loosely or indirectly associated. We overcome this challenge by designing a model that integrates attention mechanisms, multi-task learning, and feature transfer methods, achieving an F1 score of 86.51%, which outperforms baseline models. We further conduct an empirical analysis of intra- and inter-party interactions among political figures to examine political polarization in the US, showcasing the potential of the extracted data from a perspective that may not be possible without this data. We make our code, the extracted interaction data, and the WikiInteraction dataset of 4,507 labeled interaction quadruplets publicly available.
主题: 社会与信息网络 (cs.SI) ; 计算机与社会 (cs.CY)
引用方式: arXiv:2510.00019 [cs.SI]
  (或者 arXiv:2510.00019v1 [cs.SI] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.00019
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zhongyang Liu [查看电子邮件]
[v1] 星期一, 2025 年 9 月 22 日 11:42:24 UTC (8,288 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.SI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.CY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号