1.项目介绍
1,项目简介:将中国古代唐诗数据从页面中获取,并对数据进行处理分析等,将数据以图表的方式呈现出来,使用户能更直观快速的去了解古代唐诗。
2,项目成果:让用户直观的看到唐朝的各个诗人的作诗量(柱状图);展示诗人们使用最频繁的词语(词云)。
2.项目整体设计
1,获取数据
- 访问列表页(唐诗三百首大全)来获取页面中唐诗数据;
- 编写程序模拟客户端向浏览器构建 Http 请求获取 Html 页面数据;
- 将获取到的列表页 html 数据,保存在 列表页.html 中。
2,分析数据和整理数据
- 观察 列表页.xml 中的表单,提取每首唐诗页面的子路径 ,保存至 LinkedList 中;
- 根据每首诗的 url ,获取每首的详情页(诗词页)页面数据,将页面中诗的作者、标题、朝代、诗词正文等提取出来;
- 计算 sha256(标题+正文),保证数据不重复;
- 调用分词的第三方库,对内容进行分词;
- 将数据保存至数据库中。
3,提取数据库中的信息选择合适的图形界面来展示。
- 唐朝的各个诗人的作诗量(柱状图);
- 诗人们使用最频繁的词语(词云)。
3.项目技术
1,多线程
2,JDBC(数据库操作)
- 唐诗数据保存至数据库 。
- 页面展示时提取数据库信息。
3,数据结构
- List
- Map
4,HtmlUnit(数据爬取)
- 网页请求。
- 网页解析。
5,ansj_seg(分词)
- 对诗词内容按照一定的规则进行分词。
- 为可视