读 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

铁三运动员

于 2021-09-13 23:54:35 发布

阅读量330

点赞数

CC 4.0 BY-SA版权

分类专栏：读paper 文章标签： nlp

本文链接：https://blog.csdn.net/bassbian/article/details/120278238

本文介绍了实现完全无监督的跨语言词汇嵌入映射的四个步骤：1) 嵌入归一化，用于获取相似性的表示；2) 无监督初始化，通过排序相似矩阵解决对齐问题；3) 强化的自我学习，迭代优化以最大化字典中的相似性；4) 对称重新加权，双向调整以确保平衡。目标是使映射后的嵌入位于相同的跨语言空间中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单说length normalization就是在TFIDF统计词在文本中匹配的次数的时候文本长度的影响。比如给定一个query和一长一短两个文本，如果那个长文本贼长，那它就有更大的可能性匹配上这个query。length normalization用文本长度归一化函数来panelize一个长文本。具体还有不能过度惩罚和pivoted length normalizer（ROSS: pivot！pivot！pivot！）[length normalization](https://yxkemiya.github.io/2016/06/07/coursera-TextRetrievalAndSearchEngines-week2-2/)这篇写的非常清楚。

这个training的目的就是得到"linear transformation matrices Wx and Wz so the mapped embeddings XWx and ZWz are in the same cross-lingual space."

四个步骤实现：

1. embedding normalization

这步的目的是得到一个similarity的表示方法。the dot product of any two embeddings is equivalent to their cosine similarity and directly related to their euclidean distance and can be taken as a measure of their similarity. 两个embedding的点乘就是euclidean距离，就是相似性。

2.Fully unsupervised initialization

其实你想mapping的难点是什么。就是mapping不上。还是用两个embedding X和Z举例，X里面的第i个词和Z里面的第i个词可能并不是对应词意的词。而且即使找到了X和Z里面对应的词，那他们的dimension也不一样。用文中话说就是row和column都对不上（not aligned）。解决办法就是用