
"汇报1:n-gram方法与标点句意影响分析;DL中是否需要中文分词?"
下载需积分: 0 | 2.47MB |
更新于2024-01-17
| 109 浏览量 | 举报
收藏
190814_王鹏汇报1;前段时间我在阅读关于fastText的相关资料时,了解到一种叫做n-gram的方法。这种方法将句子标记为n个连续的词组,以捕捉词组内的上下文信息。与此同时,我注意到关于标点符号和句意对文本处理的影响,并发现我的论文中没有涉及到这个问题。
经过进一步阅读,我了解到了一些相关的领域知识。下面是我在2019年8月16日的汇报中分享的内容:
1. 论文阅读:在论文《Is word segmentation necessary for DL of Chinese representations?》中,作者指出了词库稀疏性对深度学习中文表示的影响。词库的稀疏性可能导致过拟合,并且未登录词(OOV)会限制模型的学习能力。此外,不同的分词标准可能会产生不同的分词结果。另外,分词后,词中保留了多少语义信息也不明确。
2. 关于Commonsense Transformers for Automatic Knowledge Graph Construction (COMET):这是一篇在ACL2019会议上发表的论文。该论文介绍了一种基于Transformer的模型,用于自动构建常识知识图谱。这个研究领域是自然语言处理(NLP)中的一个重要方向,对于构建智能对话系统具有重要意义。
3. 关于Fine-Grained Entity Typing in Hyperbolic Space:这是一篇关于实体类型细分的论文。它提出了一种在超几何空间中进行实体类型细分的方法。这个研究领域也是NLP中的一个重要方向,可以应用于各种任务,比如实体识别、关系抽取等。
除了论文的阅读,我还参加了达观杯NER比赛。通过比赛,我对命名实体识别有了更深入的理解,并学会了如何应用自然语言处理技术解决实际问题。
另外,我在Github上创建了一个仓库,用于学习和实践word2vec模型。对于我来说,这是一种非常有效的学习方式,可以通过实践来加深对算法的理解,并与其他人分享我的学习成果。
总的来说,我在过去一段时间内进行了大量学习和实践,从阅读论文到参加比赛,不断提升自己在自然语言处理领域的技术水平。未来,我将继续努力学习,深入研究相关算法和方法,并将所学应用于实际项目中。
相关推荐









型爷
- 粉丝: 25
最新资源
- SMA数据上传至pvoutput.org的Python脚本使用指南
- ToPlay:意大利中部电子商务定制解决方案与客户满意度分析
- Nuxt.js与GraphQL集成快速搭建Vue前端项目
- 在Docker容器中使用Redis测试Django和Celery项目指南
- React App入门与Firebase认证实战指南
- 《再来一次的故事》游戏体验分享与源码解析
- 派拉蒙Plus白名单的解析与应用
- 布拉索克村应用:React技术入门与实践
- Nuxt.js黑色仪表板PRO:构建与部署Vue应用
- 探索HTML技术在个人网站构建中的应用
- 创建日垃圾数量与成本的报告程序
- C#轻量级开源区块链框架BlockchainSharp发布
- MashibingTank:JavaSE学习与演示教程
- Laravel PayPal集成:信用卡支付处理解决方案
- Linux内核下的Shell脚本密码生成器项目
- Docker学习笔记:深入理解Dockerfile与容器管理
- 虚构国家Hurula联合国妇女署培训案例分析
- CTF练习文件:深入理解Python实战演练
- Docker平台上的ERPNext图像使用指南
- Kolonial案例研究分析
- 使用clasp-action自动化Google Apps脚本部署
- 意大利疫苗接种数据分析与Streamlit应用指南
- Tadawul公告预测分析:阿拉伯文本分类研究
- SSHGuard:开源防护工具防范SSH暴力攻击