
论文
文章平均质量分 88
追梦少年ML
程序改变世界,代码成就未来。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PTR: Prompt Tuning with Rules for Text Classification
在本文中,我们建议使用带有规则的prompt tuning(PTR)进行多个类别的分类任务进行tuning。对于多个类别的分类任务,我们手动设计基本的sub-prompt,并应用逻辑规则以将子标准构成最终特定任务的prompt。与现有的prompt tuning方法相比,PTR具有两个优势:(1)。PTR可以应用逻辑规则将有关任务和类的先验知识编码进prompt tuning内。我们拿关系分类为例,预测结果通常和句子分类和实体类别的关系语义相关。...原创 2022-08-29 00:00:32 · 1102 阅读 · 1 评论 -
预训练语言模型汇总
BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation,Translation,and Comprehension本文提出一种用于预训练序列到序列模型的自动去噪编码器BART。BART通过以下方式进行训练:①使用任意的噪声函数破坏文本;②学习模型来重建原始文本。BART的模型结合了BERT的双向编码器和GPT从左到右的解码器。其中编码器将被破坏的输入进行编码(消除破坏的影响),然后解码器根据编码器的最原创 2022-05-01 22:15:11 · 1952 阅读 · 0 评论 -
《BERT:Pre-training of Deep Birdirectional Transformers for Language Understand》论文阅读
读书笔记及总结(一)提出的背景在CV领域,基于微调的技术已经成功得到了应用。(例如在ImageNet上预训练的模型在小图片数据集中只需要改变最后的输出层,然后基于微调的技术就能得到该数据集上的模型,这样做能够加速模型收敛,节省时间)。但是在NLP领域还没有出现比较好的模型用来做迁移学习,所以BERT就创建了NLP领域微调的先河。只需增加一个输出层,就可以对预先训练好的BERT模型进行微调,从而为广泛的任务(如问答和语言推理)创建最先进的模型,而无需对特定任务的体系结构进行大量修改。(二)BERT模型的原创 2021-11-29 15:37:29 · 796 阅读 · 0 评论 -
《Attention Is All You Need》论文阅读
读书笔记及总结:(一)Transformer 提出的背景:Transformer 提出前,RNN、LSTM 在 nlp 领域发挥了巨大作用,但此类模型有很大的 缺陷。①RNN、LSTM 在时间上不能并行计算导致模型的训练时间较长。②在当前位置,LSTM 很难捕获到相距较远单词的含义,即两个对象的联系依赖于两个对象的距离,此外还有会导 致梯度消失现象。Transformer 使用的纯 Attention 机制,解决了这两个问题。(二)模型的架构:Transformer 有 Encoder-Decod原创 2021-11-29 15:29:33 · 917 阅读 · 0 评论 -
《Sequence to Sequence Learning with Neural Networks》论文阅读
读书笔记及总结(一)提出的背景虽然传统的DNN神经网络拟合效果很好,但是只能应用于输入和目标可以用固定维度向量进行合理编码的问题上,而无法在机器翻译上取得很好的效果。即DNN在序列-序列的问题上效果不好,因此提出了Sequence to Sequence。(二)模型的架构之前有研究使用RNN来构建sequence learning模型,但由于长距离依赖问题,用RNN模型难以训练,所以使用了一般的长短期记忆(LSTM)体系。其思想是使用一个LSTM读取输入序列,每次一个时间步长,以获得大的固定维向量表原创 2021-11-29 15:18:38 · 1188 阅读 · 0 评论