本人学习所有系列:汇总帖
这一篇文章作为精读/泛读论文的一个汇总贴。
今儿正好考完,开始暑假,马上也要去实习了,希望能保持工作日每天两篇,一周10篇略读叭,但愿实习轻松,有更多的时间来自主学习。
1-50:1-50汇总
51-100:51-100汇总
101-150:101-150汇总
- 主要内容:提出了用于句子表示的Transformer-F,以解决普通Transformer只关注无意义的虚词,不能利用浅层特征的问题。
- 主要内容:提出了一个有效的基于CKY来直接模拟语言话语中的层次结构,已经确定了该方法在语言建模和无监督解析上的有效性。在高效的线性剪枝树归纳算法的帮助下,模型在没有任何句法监督的情况下快速学习可解释的树结构,被证明与人类注释的树高度兼容。
- 主要内容:提出了语义驱动的知识感知问答(SEEK-QA)框架,它可以按照从粗到细的方式操纵外部结构化知识的注入,实验结果证明了该方法的有效性。
- 主要内容:提出了ERNIE 3.0框架,在包括纯文本和知识图的4TB语料库上预训练知识增强的100亿参数模型。为了利用零镜头学习、少镜头学习和微调来处理语言理解和生成任务,ERNIE 3.0设计了一个统一的预训练框架,该框架集成了自动编码器网络和自回归网络。
- 主要内容:证明了文本混合器在通过对抗攻击提高类型分类器鲁棒性方面的有效性。尝试了有针对性的攻击,但是能够被破坏的文本更少,并且在有针对性的攻击文本上训练的分类器比来自无针对性的攻击的分类器表现更差。
- 主要内容:进一步把负类和次负类联系起来,根据专家的意见,负面等级被进一步分为8个等级,包括恐怖主义、政治、腐败、不公正、失败、犯罪、社会方面和经济方面。创建新的数据集并评估不同的机器学习模型,包括线性SVM(支持向量机)、朴素贝叶斯、逻辑回归、BOW(带Keras的词包)。
- 主要内容:概述了适合文本领域的数据扩充方法。数据扩充有助于实现许多目标,包括规范化、最大限度地减少标记工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及增强对抗攻击的鲁棒性。在高层次上,数据增强方法被区分为应用于特征和数据空间的方法。
- 主要内容:提出了一个框架,在低资源场景下,用很少的并行数据和大量没有古今对齐信息的非平行句子,将古代汉语文本翻译成现代对应。
- 主要内容:提出了一个名为CANDLE的数据集,这个数据集用条件和连接注释来标记