计算机科学 > 计算与语言
[提交于 2025年5月24日
]
标题: 关于词嵌入中线性类比的出现
标题: On the Emergence of Linear Analogies in Word Embeddings
摘要: 像 Word2Vec 和 GloVe 这样的模型根据文本语料库中单词 $i$ 和 $j$ 的共现概率 $P(i,j)$ 构建词嵌入。 所得向量 $W_i$ 不仅按语义相似性对单词进行分组,还表现出显著的线性类比结构——例如, $W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}$ ——其理论起源仍不清楚。 先前的观察表明,这种类比结构:(i) 已经出现在矩阵$M(i,j) = P(i,j)/P(i)P(j)$的主特征向量中,(ii) 在包含更多控制嵌入维度的$M (i, j)$特征向量时会增强并饱和,(iii) 使用$\log M(i,j)$而非$M(i,j)$时会被加强,以及 (iv) 即使从语料库中移除所有参与特定类比关系的单词对(例如,king-queen、man-woman),仍然会持续存在。 为了阐释这些现象,我们引入了一个理论生成模型,在该模型中词语由二元语义属性定义,并且共现概率源自基于属性的交互作用。 此模型能够解析地再现线性类比结构的出现,并自然解释性质 (i)-(iv)。 可以将其视为对每个附加嵌入维度的作用提供了更精细的分辨率。 它对各种形式的噪声具有鲁棒性,并且与 Mikolov 等人引入的维基百科和类比基准测量的共现统计数据非常一致。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.