文本向量化浅析

最新推荐文章于 2025-03-24 16:27:07 发布

原创

最新推荐文章于 2025-03-24 16:27:07 发布 · 2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #自然语言处理

文本向量化是将非结构化文本转化为计算机可理解的矩阵或向量的过程，常用于人工智能算法。通过预处理、分词，如去除语气词，将文本转化为词语序列。简单的词频向量表示词语出现次数，one-hot则表示词是否存在。TF-IDF算法结合词频TF和逆文档频率IDF，更好地表示文本特征，提高区分文本的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在解释文本向量如何向量化之前，先要明白文本为什么要向量化？如果你向计算机中输入“明天我要出去玩”，计算机不知道你要做什么，因为他识别不了这样的语言，但是你和计算机说0101，他就能明白你的意思。所以，非结构化数据，像语音、视频、文字等等，在输入到人工智能算法之前，都要先转化为能代表他们的特征或矩阵。

就像26个英文字母是没有意义的，但是每个中文词汇都有一个对应的、由他们组成的英文单词，如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a apple”，就可以根据另一种规则转化成既能代表这句话又能被计算机识别的语句（向量/矩阵）。

由于输入到算法中训练的是转化后的矩阵/向量，所以文本向量化后所带的特征信息是区别其他文本的重要依据。一个文本语句在进行向量化之前，就已经经过了文本预处理和分词，去掉各种语气词并变成了一个个词语。如：明天你回家不回家啊。会去掉“啊”这种语气词，同时，根据词库，“明”和“天”会被当成一个词处理，最后分词结果会是“明天/你/回家/不/回家”，而不是“明/天/你/回/家/不/回/家”。

如果简单的按照词语出现的频率来向量化，“明天/你/回家/不/回家”，就会对应成（1,1,2,1），其中“回家”的频率是两次。而实际上，文本向量化的规则有很多种，词频（词语的频率）是其中最简单的一种。实际运用中，输入的文本一般是多个，成为一个文本集，在分词之后，所有的词都是特征词。如文本集：“明天回