Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.18651v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2505.18651v1 (cs)
[提交于 2025年5月24日 ]

标题: 关于词嵌入中线性类比的出现

标题: On the Emergence of Linear Analogies in Word Embeddings

Authors:Daniel J. Korchinski, Dhruva Karkada, Yasaman Bahri, Matthieu Wyart
摘要: 像 Word2Vec 和 GloVe 这样的模型根据文本语料库中单词 $i$ 和 $j$ 的共现概率 $P(i,j)$ 构建词嵌入。 所得向量 $W_i$ 不仅按语义相似性对单词进行分组,还表现出显著的线性类比结构——例如, $W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}$ ——其理论起源仍不清楚。 先前的观察表明,这种类比结构:(i) 已经出现在矩阵$M(i,j) = P(i,j)/P(i)P(j)$的主特征向量中,(ii) 在包含更多控制嵌入维度的$M (i, j)$特征向量时会增强并饱和,(iii) 使用$\log M(i,j)$而非$M(i,j)$时会被加强,以及 (iv) 即使从语料库中移除所有参与特定类比关系的单词对(例如,king-queen、man-woman),仍然会持续存在。 为了阐释这些现象,我们引入了一个理论生成模型,在该模型中词语由二元语义属性定义,并且共现概率源自基于属性的交互作用。 此模型能够解析地再现线性类比结构的出现,并自然解释性质 (i)-(iv)。 可以将其视为对每个附加嵌入维度的作用提供了更精细的分辨率。 它对各种形式的噪声具有鲁棒性,并且与 Mikolov 等人引入的维基百科和类比基准测量的共现统计数据非常一致。
摘要: Models such as Word2Vec and GloVe construct word embeddings based on the co-occurrence probability $P(i,j)$ of words $i$ and $j$ in text corpora. The resulting vectors $W_i$ not only group semantically similar words but also exhibit a striking linear analogy structure -- for example, $W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}$ -- whose theoretical origin remains unclear. Previous observations indicate that this analogy structure: (i) already emerges in the top eigenvectors of the matrix $M(i,j) = P(i,j)/P(i)P(j)$, (ii) strengthens and then saturates as more eigenvectors of $M (i, j)$, which controls the dimension of the embeddings, are included, (iii) is enhanced when using $\log M(i,j)$ rather than $M(i,j)$, and (iv) persists even when all word pairs involved in a specific analogy relation (e.g., king-queen, man-woman) are removed from the corpus. To explain these phenomena, we introduce a theoretical generative model in which words are defined by binary semantic attributes, and co-occurrence probabilities are derived from attribute-based interactions. This model analytically reproduces the emergence of linear analogy structure and naturally accounts for properties (i)-(iv). It can be viewed as giving fine-grained resolution into the role of each additional embedding dimension. It is robust to various forms of noise and agrees well with co-occurrence statistics measured on Wikipedia and the analogy benchmark introduced by Mikolov et al.
评论: 主文:12页,3个图。附录:8页,7个图
主题: 计算与语言 (cs.CL) ; 无序系统与神经网络 (cond-mat.dis-nn); 机器学习 (cs.LG)
引用方式: arXiv:2505.18651 [cs.CL]
  (或者 arXiv:2505.18651v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.18651
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Daniel Korchinski [查看电子邮件]
[v1] 星期六, 2025 年 5 月 24 日 11:42:26 UTC (907 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cond-mat
cond-mat.dis-nn
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号