# News
神经网络与深度学习课程设计(Neural_NetworksAndDeep_Learning新闻文本分类)
RNN、CNN网络模型分别实现的新闻文本分类
选题自2021年中软杯——新闻文本分类
选题要求:对新闻进行科学的分类既能够方便不同的阅读群体,根据需求快速选取自身感兴趣的新闻,也能够有效满足对海量的新闻素材提供科学的检索需求
RNN实现步骤:
1. 预处理:在RNN网络中,我们首先需要读取数据,由于每一条新闻的长度并不都是相同的,所以首先要将所有句子都规定成相同的长度。这里的句子长度并不是指所具有的字数相同,而是根据自己的分词算法,一句话分词结果的词的个数相同。对于词数不够的采用特殊码代替,我用的是PAD(词表中的特殊码,下面会介绍); 超过的部分进行截断丢弃。这里句子长度的选取需要根据自己的数据集的长度来选取,在我的数据集中,大多数新闻都是32词左右,故我选取的长度是32
2. 分词:读取新闻数据的一行,以tab 分隔标题和标签,读取vocab.pkl 文件,获取词表,如图:共有 4761个词,其中这里的PAD就是上面说到的特殊码,用来补充长度不够的句子。
3. 转换: RNN模型中,接收的输入是向量而不是文本,所以需要将一句话中的所有词都转变成向量,也就是进行词嵌入embedding。我这里直接采用了搜狗已经训练好的词嵌入模型embedding_SougouNews.npz
需要说明的是,因为新闻文本基本上都是一些常见的词,所以可以使用已经训练好的词嵌入模型,如果是做一些专业领域的词向量embedding,就需要自己训练模型。在搜狗的词嵌入模型中,官方论文给出的维度是300维,所以我在程序中也是指定300维的向量。
4. 输入维度: RNN网络中的输入维度 ( batch, max-word, f )其中 batch 指的是一次同时处理的新闻数量。例如,我在程序中指定的是 batch = 128, 即一次处理128条新闻。这里的max-word就是上面说到过的 一句话的最大长度 32, 也就是每句话进行embedding之前都具有32个词。而 f 就是每个词的维度,即上面规定的 300维
RNN分层:
第一层: 输入层,即embedding层
第二层: lstm层。参数(300维,隐藏神经元, lstm的层数,双向,第一维度是batch,dropout)。
第三层:全连接层。 参数( 特征数, 分类数)
第四层: 输出层。
LSTM训练
Lstm的训练主要是循环所有epoch中的所有batch,epoch是指定的,这里为10。
循环batch的过程中,与上面分析的一样,首先正向传播获取特征,然后反向传播获取特征,最后做拼接后输出。
每100轮做一次验证,根据batch中所有新闻的标签获取新闻分类的真实值,将输出中新闻对应的分类概率最大的那个作为预测值,计算出准确率和损失。如果这一次的损失比之前的更小,说明这一次训练得到的模型更好,故保存新的模型。然后循环下一个batch,循环往复
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用无需修改,确保可以运行。也可作为期末大作业。 基于神经网络与深度学习的新闻文本分类源码+项目说明.zip这是95分以上高分必过课程设计项目,下载即用
资源推荐
资源详情
资源评论



















格式:zip 资源大小:28.3MB



格式:zip 资源大小:1.1MB







收起资源包目录
















































































































共 69 条
- 1
资源评论

- zb9898992024-05-28感谢资源主的分享,这个资源对我来说很有用,内容描述详尽,值得借鉴。
- xtxyvydugi2024-05-30资源不错,很实用,内容全面,介绍详细,很好用,谢谢分享。
- mjtmpm2024-06-28资源和描述一致,质量不错,解决了我的问题,感谢资源主。


辣椒种子
- 粉丝: 4516
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 浅析工程项目管理会计核算中存在的问题和对策.docx
- 基于GPT-4生成网络安全黑话语录的智能工具-网络安全黑话行业安全标准端到端加密权限管理防火墙规则入侵检测威胁情报反病毒引擎漏洞挖掘安全闭环知识库构建安全生态.zip
- 医院计算机信息网络系统安全保障要求.doc
- 基于PLC的四节传送带控制系统设计.doc
- Chhektu计算机网络安全超强笔记.doc
- 株洲服饰产业物联网项目发展市场环境分析.doc
- 大数据背景下的企业财务管理研究.docx
- 深度学习在PAI平台中的应用.docx
- 嵌入式系统设计方案实n习报告.doc
- Beyond-CI-to-Production-Scale-PaaS-with-Docker.pdf
- 全程电子商务实训平台建设实施方案(完整版)V3.07.1.docx
- PLC控制机械手大学设计.doc
- 互联网平台型企业参与金融基础设施建设的逻辑与对策.docx
- 分析计算机管理信息系统现状及发展趋势.docx
- 云计算环境下的信息安全对策.docx
- 电子通信工程存在的问题以及发展方法分析.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
