自然语言处理之——关键词提取(二)

最新推荐文章于 2024-10-26 22:42:17 发布

xiao | yang

最新推荐文章于 2024-10-26 22:42:17 发布

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

文章标签：自然语言处理算法人工智能

本文链接：https://blog.csdn.net/xi_xiyu/article/details/122682444

本文介绍了自然语言处理中的关键词提取，探讨了TF-IDF和TextRank算法的局限性，并引入了主题模型的概念。重点讲解了LSA/LSI算法，包括其工作原理、BOW模型和SVD奇异值分解，阐述了SVD在降维和特征分解中的作用。此外，还提及了LSA的优缺点及其在实际应用中的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一．摘要

在通常的情况下，使用TF-IDF和TextRank算法就可以完成大部分关键词提取的任务。但还会有一些特殊场景，仅基于文档本身的关键词提取还不够准确和全面。例如记录国家地理的文档，文档中会有新疆、辽宁、四川等地名的频次会很高，但文中并不会显示的出现地理等词语。此场景下TF-IDF和TextRank算法就不能够全面的发现主题信息，这时候就需要用到主题模型。

图1：主题模型映射示意图

二． 主题模型概述

TF-IDF和TextRank算法这两种模型是直接根据词与文档的关系，对关键词进行抽取。这两种算法的原理仅用到了文档中的统计信息，对文档本身所包含的信息无法充分的利用，尤其是其中的语义信息，对文档关键词的提取是一种分厂有用的信息。相较TF-IDF和TextRank算法，主题模型认为在词与文档之间是没有直接的联系，它们还存在着一个维度将其关联，主题模型将这个维度称为主题。并且每个文档都对应着一个或多个主题，每个主题都会有对应的词分布。所以通过主题就可以得到每个文档的词分布。根据这样的原理。便得到了主题模型的核心表达式

图2：主题模型表达式

在一个已知的文本数据集中，每个词和文档对应的P(wi|dj)都是已知的。而主题模型就是通过这个已知的信息，计算P(wi|tk)和P(tk|dj)的值，从而得到主题的词分布和文档的主题分布信息。想要得到这个的分布信息，目前常用的方法就是LSA(LSI)和LDA。其中LSA主要是采用SVD(奇异值分解)进行暴力破解，而LDA采取通过贝