模糊词库与复杂度追踪结合的主题识别
立即解锁
发布时间: 2025-08-22 02:10:38 阅读量: 2 订阅数: 6 


网络社会的新方法与实践:信息系统开发进展
### 模糊词库与复杂度追踪结合的主题识别
#### 1. 引言
信息检索系统能够帮助用户高效地检索出与当前兴趣相关的文档。然而,待检索的文档集合可能极为庞大,且术语的使用也可能不一致。自然语言中,同一或相似概念往往有许多相似的术语。为了找出属于同一主题的大部分文档,就需要建立特殊的词典,词库便是描述同一概念的术语(单词)集合。借助词库,我们能发现文档间的关联,即便这些文档不一定包含相同的单词,也能检索出不一定包含查询词的相关文档。
自动化关键词搜索是解决这一问题最常用的方法,但很容易发现,有些文档虽未包含实际的关键词,却可能包含其同义词,或一些含义紧密相关但更具体的术语,这些文档对于搜索而言同样具有相关性。例如,若查询关键词为“软计算(SC)”,那么关于模糊系统、神经网络等类似主题的文档无疑是相关的,即便它们从未明确提及更宽泛的术语“SC”。此外,同一科学界的其他部分可能更倾向于使用含义相近的“计算智能”一词,因此所有与之相关的文档也应被检索出来。
在之前的研究中,我们建议使用层次共现频率来衡量给定文档内容中单个单词和词组的重要性。这意味着,大部分文档的标题、副标题、摘要、引言或结论部分中某些单词的出现频率,可能是正文中某些(其他)单词出现频率的特征。单词A在标题中出现,单词B在正文中出现,它们的频率被称为层次共现。显然,这些频率并非概率度量,因为文档中某个单词的相对频率并不能直接衡量其相关性。不过,这些频率以一种间接、非线性且本质上非加性的方式决定了文档的可能性程度。接下来,我们将介绍一种将统计或估计的出现频率转换为可能性度量(模糊隶属度)的方法。
有许多利用词库支持信息检索的例子。例如,有的研究考察40个单词宽窗口内的单词共现情况;有的通过转置词 - 文档矩阵来构建词库。将模糊逻辑应用于自动化信息检索并非新鲜事,该领域的一些重要进展已有相关总结。
#### 2. 关键词出现频率与可能性程度
当分析与某一特定主题(如民俗信仰)相关的文档集合时,会发现有些单词在所有或大多数文档中频繁出现,这些单词对于任何特定文档的内容而言并无意义。自然语言文档中常见的单词被称为停用词,而在某些上下文中可能有意义,但在特定上下文中作用类似于真正停用词的单词,在本研究中被称为相对停用词。在民俗信仰的上下文中,相对停用词很难识别,因此相对停用词集合为空。这些文本通常较短,除了适当的停用词外,只包含相关且往往简短隐晦的表达。
通过省略停用词(以及相关的相对停用词),我们可以得到一组有意义的单词,用于进一步分析。其中一些单词可能比其他单词更重要,可被选为关键词集合。在层次共现方法中,标题和副标题等可能仅检查关键词的出现情况,而文档的其余部分则检查任何有意义的单词。单词分类的四个类别示例如下表所示:
| 类别 | 示例 |
| ---- | ---- |
| 关键词 | “圣诞节” |
| 有意义的单词 | “男人” |
| 停用词 | “the” |
| 相对停用词 | 无 |
将出现频率转换为模糊隶属度是一个至关重要的问题,模糊隶属度可被解释为重要性和相关性的度量,满足可能性度量的属性。隶属度或模糊度量的范围从0到1,0表示完全不重要,1表示绝对重要。在文档中频繁出现的单词通常是停用词(绝对或相对停用词),应不予考虑。对于其余有意义的单词,一般来说,出现频率越高,重要性程度也越高。尽管出现频率(单词计数)和重要性程度之间的关系是严格单调的,但并非成比例关系。
关键区域通常被定义为“少数出现”,具体取决于文档的类型和大小,一般在2到20次单词计数之间。一个单词在文档中出现10次或12次,从查询的角度来看,该文档在这两种情况下可能都相当重要。另一方面,一个单词出现一两次可能是偶然的,或者表明该主题只是被非常肤浅地提及,而多次提及(三次或四次以上)则表明该单词从文档的角度来看是重要的。对于像信仰和迷信这样的短文档,这些数字可能会有所不同,尤其不太可能期望单词出现超过少数几次(两次、三次或四次)。
从出现频率或计数到可能性隶属度的映射通常是一个S形函数,其陡峭部分围绕着出现的“关键”区域,具体值取决于预期的文档长度和类型,以及环境类别(标题、文本等)。这些S形函数σ(F)必须满足一定的条件。实际上,σ不一定是连续可微的,但其特征应呈“S形”。
#### 3. 民俗语料库的模糊预处理
匈牙利拥有丰富的民俗传统,尤其是在上个世纪,在研究和保护这一遗产方面取得了成功。如今,许多年轻人学习乡村传统舞蹈,许多城市也有乡村音乐和舞蹈派对。最近在匈牙利举办的第三届世界民俗节——“民间艺术的奥林匹克”,便是国际社会对这项工作认可的明显标志。
20世纪,许多匈牙利文化人类学家收集了大量的信仰和迷信资料,国家博物馆约有27000份纸质文档。遗憾的是,传统的人类学技术无法处理如此大量的数据,通常研究仅分析6到10份文档。在上述收藏中,有一个包含2704份匈牙利信仰文本的数字化数据库,适合进行计算机分析,并已通过主成分分析进行处理。
为了区分不同的方言,同一个单词可能有不同的拼写方式,有时甚至使用特殊字符来记录发音。此外,语料库中使用了大量旧风格的语言,其中很大一部分词汇已不再使用。因此,首先需要将同一单词的不同形式收集到预处理词典中。这样,我们也解决了匈牙利语作为黏着语的问题,因为它会在单词末尾添加许多不同的词缀。
经过处理,预处理词典中剩下1837个有意义的单词。同时,我们特别关注否定情况。匈牙利语在动词前加“nem(不)”来表示否定,因此如果软件在文本中发现“nem”这个词,会将其与下一个单词一起考虑,并在预处理词典中搜索整个字符串。在这个研究阶段,我们并未尝试解决像“fog”这样有多种含义的单词问题,因为选择其实际含义需要分析上下文,这是一项相当复杂的任务。
文档通常只有2到5行,很少有超过半页的,因此即使单个单词的出现也相当重要。对于单个出现的单词,隶属度已达到0.5。不到0.1%的有意义单词出现超过4次,因此当一个单词在文档中出现4次时,隶属度为1。预处理结束后,得到了一个大小为2704x1837的矩阵M,矩阵边缘列出了单词(W)和文档(D),M中存储的模糊度显示了给定单词与文档的相关程度。
单词频率度的定义如下:
\[
\sum_{i = 1}^{N} \sigma_{W_d}(w_i) = I_w
\]
单词频率度展示了给定单词在整个文档集合(语料库)中的重要程度。
#### 4. 通过共现建立模糊伪词库
如果要自动生成词库,有两个主要问题需要解决:一是用什么来代替概念集;二是当同义词度不为0或1时,如何选择其程度。
为了定义同义词,我们考虑所有概念的集合。一个单词以模糊隶属度属于一个概念,一个单词可能属于多个概念,多个单词也可能属于一个概念。如果两个单词以相同的程度属于完全相同的概念,那么它们就是同义词。模糊词库不仅列出同义词,还列出同义词度。例如,如果单词A和单词B属于一些共同的概念,但也属于一些不同的概念,那么它们是具有一定程度的同义词;如果它们没有共同的概念,则同义词度为零。由于用文档集代替概念集并不是一个很好的替代方法,因此得到的词库被称为伪词库。
定义单词对之间同义词度的方法有很多种,但一些明显的选择效果并不理想,因此我们引入了一个特殊的权重因子。
##### 4.1 逐步建立模糊伪词库
- **步骤1:共现度计算**
\[
\mu_{ij} = \frac{1}{C} \sum_{z = 1}^{N} \min(\sigma_{W_d}(w_{i,z}), \sigma_{W_d}(w_{j,z})) s_{ij}
\]
其中,C是一个常数,用于将μij保持在[0,1]范围内,C是独立的,而权重s可能与i和j有关。选择C的第一个想法是取文档数量N,但这样μij的值会非常小。更合理的取值是:
\[
C = \max_{i,j} \left( \sum_{z = 1}^{N} \min(\sigma_{W_d}(w_{i,z}), \sigma_{W_d}(w_{j,z})) s_{ij} \right)
\]
- **步骤2:合适的α - 截集**
如果有意义的单词数量为M,那么共现度(μij)会形成一个MxM的矩阵W,矩阵两边列出从1到M的单词。由于μij = μji,这个矩阵W可以用无向图表示。选择一个合适的α,使得α - 截集在图中留下约30到40个节点,这就是伪词库的一种表示。
- **步骤3:搜索最大团**
图中的边表示连接的两个代表单词的节点在广义上是“同义词”(在含义上相关)。如果一组节点完全连接,则它们被称为一个团,并且被认为与同一个广义概念相关。
- **步骤4:模糊团**
在找到的最大团中,很多时候会有一些团有很多共同节点。由于我们是任意选择α的,因此检查这些相近的团是否描述了同一个广义概念并将它们聚合是合理的。我们选取只有一个不同节点的团,并研究这些不同的节点。如果在α’ = 0.7α截集水平上它们之间有边,我们就将这些团聚合。
##### 4.2 权重s = 1
当权重s = 1时,共现度量简单地与共现之和成正比。从下表可以看出,在α - 截集中只剩下非常频繁的单词,语料库中最频繁的单词(编号18,“go
0
0
复制全文
相关推荐








