神经网络编写html,基于神经网络的HTML文档分类研究-CSDN博客

本文探讨了互联网信息的提取和分类技术，重点在于HTML文档正文的提取及使用潜在语义索引进行文本表示。提出了一种加权系统，强调HTML标签中的特定词以增强分类相关性。通过神经网络分类方法，对比了反向传播和粒子群优化算法的效果，实验显示神经网络在HTML文档分类中表现出色，反向传播算法为最佳训练策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

随着社会网络的日益普及,互联网上产生了大量的数据和文档,互联网上海量信息的提取、分类处理技术成为目前研究的热点。本文对Internet上信息进行综合深入的分析,对文本提取和处理的技术,以及分类的技术进行了集成整合。首先研究从HTML文档提取正文的技术,以及如何使用文本处理方法来减少提取数据的大小。提取的文本还需要有效的表示方法以便可以接下来进行更好的分类。本文采用了潜在语义索引的方法来更好地表示抽取后的文本,将文本变成基于语义的长度可变向量。同时,本文提出了一个加权的系统,在处理文本阶段使用了权重来强调一些HTML标签中的词,为了让这些词跟某个类别有更强的关系。基于理论研究的成果实现一个HTML文档分类,该系统可以处理第一部分的向量输出,然后通过训练过程来分类新的数据。本文提出的系统使用神经网络的方法进行分类,使用两种模式来比较分类的效果。第一个模式采取的传统的反向传播算法,第二个模式采取的是粒子群优化算法。通过实验发现神经网络对HTML文档的分类有比较好的效果,同时实验结果表明反向传播算法是最好的训练方法。加权系统同样是为了提高分类的精度,但对分类结果的影响较小。

展开