读 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

本文介绍了实现完全无监督的跨语言词汇嵌入映射的四个步骤:1) 嵌入归一化,用于获取相似性的表示;2) 无监督初始化,通过排序相似矩阵解决对齐问题;3) 强化的自我学习,迭代优化以最大化字典中的相似性;4) 对称重新加权,双向调整以确保平衡。目标是使映射后的嵌入位于相同的跨语言空间中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简单说length normalization就是在TFIDF统计词在文本中匹配的次数的时候文本长度的影响。比如给定一个query和一长一短两个文本,如果那个长文本贼长,那它就有更大的可能性匹配上这个query。length normalization用文本长度归一化函数来panelize一个长文本。具体还有不能过度惩罚和pivoted length normalizer(ROSS: pivot!pivot!pivot!)[length normalization](https://yxkemiya.github.io/2016/06/07/coursera-TextRetrievalAndSearchEngines-week2-2/)这篇写的非常清楚。

这个training的目的就是得到"linear transformation matrices Wx and Wz so the mapped embeddings XWx and ZWz are in the same cross-lingual space."

四个步骤实现:

1. embedding normalization

这步的目的是得到一个similarity的表示方法。the dot product of any two embeddings is equivalent to their cosine similarity and directly related to their euclidean distance and can be taken as a measure of their similarity. 两个embedding的点乘就是euclidean距离,就是相似性。


2.Fully unsupervised initialization

其实你想mapping的难点是什么。就是mapping不上。还是用两个embedding X和Z举例,X里面的第i个词和Z里面的第i个词可能并不是对应词意的词。而且即使找到了X和Z里面对应的词,那他们的dimension也不一样。用文中话说就是row和column都对不上(not aligned)。解决办法就是用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值