自然语言处理中的深度学习平台与算法
在自然语言处理领域,未标注数据可以通过无监督和半监督方法加以利用,也可用于其他自然语言处理任务,甚至能通过多任务学习方法利用其他语言信息。同时,社会的发展带来了话题和语言的演变,深度学习平台和算法也在不断推动着自然语言处理技术的进步。
社会演变
- 话题演变 :与传统新闻媒体不同,现代社交网络更注重用户参与。互联网上的信息来源多样,包含公众关注的热点话题,也可能存在与公共安全和社会稳定相关的敏感话题。事件的发展会在时间、文化等多种因素的影响下发生变化,这就是话题演变。话题演变反映了一个话题从产生、流行到衰落直至结束的过程,随着时间推移,话题的热度和内容都会发生变化,即存在议题迁移。
- 语言演变 :通过无监督方法发现新词可以有效获取文本的领域特征。任何语言在发展演变过程中都会产生新词,语言演变有两种形式:
- 时间纵向演变 :以网络流行语为例,如“躺平”“凡尔赛”等,这些词汇充分反映了一段时间内的社会文化现象,直接体现了社会热点和趋势。
- 领域横向演变 :指不同领域的独特专业术语,如人工智能领域的“终身学习”“CNN”等。此外,小语种往往难以找到通用词汇,将新词发现算法应用于该领域,可以挖掘相关词汇信息,填补数据空白。目前,词嵌入通常是通过在未标注语料库上进行预训练得到的,但大多数当前的语言表示方法会忽略新词(未登录词),而新词也包含大量信息,丢弃它们会降低模型性能。