- 博客(5)
- 收藏
- 关注
原创 FastText
FastText FastText是facebook开源的一个词向量与文本分类工具 ,其最大的优点就是快,同时不失精度。 此算法有两个主要应用场景: 文本分类 词向量训练 FastText原理简介 模型简单,其结构有点类似word2vector中的CBOW架构,如下图所示。FastText将句子特征通过一层全连接层映射到向量空间后,直接将词向量平均处理一下,就去做预测。 使用了n-gram的特征,使得句子的表达更充分。笔者会在实战中详细介绍这部分的操作。 使用 Huffman算法建立用于表征类别的树形
2020-07-06 23:50:25
286
原创 CS22n Lecture 13 Contextual Word Representations and Pretraining
CS22n Lecture 13 Contextual Word Representations and Pretraining Reflections on word representations Tips for unknown words with word vectors 训练时:词汇表 Vocab 为{ words occurring, say, $\geq$5 times} ⋃\bigcup⋃ {< UNK >} 将所有罕⻅的词(数据集中出现次数小于 5)都映射为< UN
2020-07-04 09:58:46
183
原创 CS224n - Subword Model
文章目录CS224n - Subword ModelCharacter-Level ModelsSub-word modelsByte Pair EncodingWordpiece/Sentencepiece modelCharacter-level to build word-levelHybrid NMTFastText embeddings CS224n - Subword Model Character-Level Models 词嵌入可以由字符嵌入组成 为未知单词生成嵌入 相似的拼写共享相似的
2020-06-30 22:49:40
210
原创 CS224N Word Vectors 2 and Word Senses
文章目录CS224N Word Vectors 2 and Word SensesOptimization: Gradient Descent梯度下滑迭代梯度下滑方法基于统计的词向量Dimensionality Reduction on XHacks to XGlove构建词向量和共现矩阵之间的关系优势评估词向量内在词向量评估 CS224N Word Vectors 2 and Word Senses Optimization: Gradient Descent 梯度下滑迭代 θnew=θold−α∇θJ(
2020-06-27 22:37:22
211
原创 CS224n Note -- Lecture 1: Introduction and Word Vectors
文章目录词向量WordnetWordnet的劣势discrete symbolsRepresenting words by their contextWord2vecWord2vec的目标函数计算Word2vec prediction function梯度优化 词向量 Wordnet WordNet, 一个包含同义词集和上位词的辞典。 Wordnet的劣势 是很好的资源但忽略了细微的一些差别:例如词典中‘proficient’与‘good’认为是同义词,但是这只在某些文本上下文中成立。 忽略了一些单
2020-06-24 13:06:24
207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人