摘要:
随着社会网络的日益普及,互联网上产生了大量的数据和文档,互联网上海量信息的提取、分类处理技术成为目前研究的热点。本文对Internet上信息进行综合深入的分析,对文本提取和处理的技术,以及分类的技术进行了集成整合。 首先研究从HTML文档提取正文的技术,以及如何使用文本处理方法来减少提取数据的大小。提取的文本还需要有效的表示方法以便可以接下来进行更好的分类。本文采用了潜在语义索引的方法来更好地表示抽取后的文本,将文本变成基于语义的长度可变向量。同时,本文提出了一个加权的系统,在处理文本阶段使用了权重来强调一些HTML标签中的词,为了让这些词跟某个类别有更强的关系。 基于理论研究的成果实现一个HTML文档分类,该系统可以处理第一部分的向量输出,然后通过训练过程来分类新的数据。本文提出的系统使用神经网络的方法进行分类,使用两种模式来比较分类的效果。第一个模式采取的传统的反向传播算法,第二个模式采取的是粒子群优化算法。 通过实验发现神经网络对HTML文档的分类有比较好的效果,同时实验结果表明反向传播算法是最好的训练方法。加权系统同样是为了提高分类的精度,但对分类结果的影响较小。
展开