JavaWeb——唐诗分析项目

该项目从唐诗三百首大全中爬取数据,进行诗词分析,包括诗人作诗量的柱状图展示和高频词语的词云图。使用了HtmlUnit进行数据爬取,ansj_seg进行分词,JDBC处理数据库,Echarts进行前端渲染,Redis提升访问效率。通过多线程和数据结构实现项目功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.项目介绍

1,项目简介:将中国古代唐诗数据从页面中获取,并对数据进行处理分析等,将数据以图表的方式呈现出来,使用户能更直观快速的去了解古代唐诗。

2,项目成果:让用户直观的看到唐朝的各个诗人的作诗量(柱状图);展示诗人们使用最频繁的词语(词云)。

2.项目整体设计

1,获取数据

  1. 访问列表页(唐诗三百首大全)来获取页面中唐诗数据;
  2. 编写程序模拟客户端向浏览器构建 Http 请求获取 Html 页面数据;
  3. 将获取到的列表页 html 数据,保存在 列表页.html 中。

2,分析数据和整理数据

  1. 观察 列表页.xml 中的表单,提取每首唐诗页面的子路径 ,保存至 LinkedList 中;
  2. 根据每首诗的 url ,获取每首的详情页(诗词页)页面数据,将页面中诗的作者、标题、朝代、诗词正文等提取出来;
  3. 计算 sha256(标题+正文),保证数据不重复;
  4. 调用分词的第三方库,对内容进行分词;
  5. 将数据保存至数据库中。

3,提取数据库中的信息选择合适的图形界面来展示。

  1. 唐朝的各个诗人的作诗量(柱状图);
  2. 诗人们使用最频繁的词语(词云)。

3.项目技术

1,多线程

2,JDBC(数据库操作)

  1. 唐诗数据保存至数据库 。
  2. 页面展示时提取数据库信息。

3,数据结构

  1. List
  2. Map

4,HtmlUnit(数据爬取)

  1. 网页请求。
  2. 网页解析。

5,ansj_seg(分词)

  1. 对诗词内容按照一定的规则进行分词。
  2. 为可视
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值