挖掘维基百科类别关系与网站日志以提升信息可查找性
立即解锁
发布时间: 2025-08-21 02:00:51 阅读量: 1 订阅数: 9 


网络数字技术前沿与发展
### 挖掘维基百科类别关系与网站日志以提升信息可查找性
#### 一、挖掘维基百科类别关系
1. **背景与目标**
- 维基百科是一个免费的在线百科全书,由志愿者贡献资源且可自由编辑。其大量的文本数据给自动文本处理算法带来了新挑战,但也可作为文本挖掘算法的数据源。
- 研究旨在探索自动组织文本资源的方法,聚焦于改善维基百科类别系统,具体有三个研究方向:引入现有类别间新的重要关系、自动构建新类别、基于现有类别构建新的类别系统。本文着重于第一个方向,即研究构建用于组织文档集的类别间关系。
2. **实验描述**
- **图结构**
- 维基百科中的文章通过页面链接相互连接,形成有向的文章图(Article Graph);文章可被分配到多个类别,类别之间也相互连接,形成有向的类别图(Category Graph)。
- 文章图代表百科条目的关系,类别图引入抽象概念系统来组织文章,类别能让用户在概念层面查找文章,相比传统基于关键词匹配的搜索方式有优势。
- **方法**
- 提出将文章图中的新信息添加到类别图的方法。文章图可用于计算文章组的语义相似度,形成相互连接的通用概念网络。
- 应用该方法会生成一个新的类别图(Generated Category Graph),其节点与原始类别图相同,但新边根据文章图中的链接按公式 \(R(C1, C2, w * n)\) 计算,其中 \(w\) 表示类别 \(C1\) 中链接到类别 \(C2\) 文章的数量,\(n\) 用于权重归一化,计算公式为 \(n = \frac{1}{C1 文章数量 + C2 文章数量}\)。
3. **数据**
- **数据来源**:从维基媒体基金会下载页面获取数据库表形式的数据,使用的维基百科表包括:Pages(包含页面数据,如页面标题和 ID)、Categories(包含类别数据,如类别标题和 ID)、Pagelinks(包含页面间的所有链接)、Categorylinks(包含原始页面类别成员关系和类别 - 类别关系)。
- **数据处理**:为提高效率,分析波兰维基百科,其文章数量约为英文版本的五分之一。由于处理关系表形式的图时索引过程耗时过长,创建了一个 Java 程序,将 SQL 转储文件按需分部分读入内存(需要 Java 堆栈超过 2GB),减少了磁盘 I/O 操作时间对整体执行时间的影响,并利用哈希表实现快速数据访问。
4. **结果与评估**
- **生成边的情况**:使用提出的方法为波兰维基百科的类别图生成了 16,281,366 条边,平均边权重值为 0.058,但只有 20%(3,300,477)的边权重为 0.05 或更高。
- **原始类别图覆盖情况**
- 原始类别图包含 79,582 条边,完整的生成类别图覆盖了其中的 77,113 条边,覆盖率为 96.6%。
- 若去除权重低于 0.05 的边,生成类别图包含 3,300,477 条边,其中 70.9%(56,434)与原始类别图的边对应。
- 随机生成边对原始类别图的覆盖率:有 57,884 个类别,可能的类别链接有 3,350,557,456 条,随机生成边的概率 \(Pr = 0.0024\%\)。16,281,366 条边的随机覆盖率为 0.4%,3,300,477 条边的随机覆盖率为 0.09%。
5. **可视化**
- 将生成类别图用于推荐与用户感兴趣文章相关的类别,通过图形化的网页界面展示类别及它们之间的关系,用户可友好地浏
0
0
复制全文
相关推荐









