"汇报1：n-gram方法与标点句意影响分析；DL中是否需要中文分词？"

PDF文件

下载需积分: 0 | 2.47MB | 更新于2024-01-17 | 109 浏览量 | 举报收藏

立即下载

190814_王鹏汇报1；前段时间我在阅读关于fastText的相关资料时，了解到一种叫做n-gram的方法。这种方法将句子标记为n个连续的词组，以捕捉词组内的上下文信息。与此同时，我注意到关于标点符号和句意对文本处理的影响，并发现我的论文中没有涉及到这个问题。经过进一步阅读，我了解到了一些相关的领域知识。下面是我在2019年8月16日的汇报中分享的内容： 1. 论文阅读：在论文《Is word segmentation necessary for DL of Chinese representations?》中，作者指出了词库稀疏性对深度学习中文表示的影响。词库的稀疏性可能导致过拟合，并且未登录词（OOV）会限制模型的学习能力。此外，不同的分词标准可能会产生不同的分词结果。另外，分词后，词中保留了多少语义信息也不明确。 2. 关于Commonsense Transformers for Automatic Knowledge Graph Construction (COMET)：这是一篇在ACL2019会议上发表的论文。该论文介绍了一种基于Transformer的模型，用于自动构建常识知识图谱。这个研究领域是自然语言处理（NLP）中的一个重要方向，对于构建智能对话系统具有重要意义。 3. 关于Fine-Grained Entity Typing in Hyperbolic Space：这是一篇关于实体类型细分的论文。它提出了一种在超几何空间中进行实体类型细分的方法。这个研究领域也是NLP中的一个重要方向，可以应用于各种任务，比如实体识别、关系抽取等。除了论文的阅读，我还参加了达观杯NER比赛。通过比赛，我对命名实体识别有了更深入的理解，并学会了如何应用自然语言处理技术解决实际问题。另外，我在Github上创建了一个仓库，用于学习和实践word2vec模型。对于我来说，这是一种非常有效的学习方式，可以通过实践来加深对算法的理解，并与其他人分享我的学习成果。总的来说，我在过去一段时间内进行了大量学习和实践，从阅读论文到参加比赛，不断提升自己在自然语言处理领域的技术水平。未来，我将继续努力学习，深入研究相关算法和方法，并将所学应用于实际项目中。