- 绪 论
- 研究目的与意义
随着人工智能的蓬勃发展,以及人工智能中的自然语言处理、机器学习、深度学习等相关技术的突破,基于人工智能的应用也得到了快速的发展。知识图谱作为其中的一个应用,也在快速的发展。知识图谱最早出现是被Eugene Garfield等人用在研究构建DNA领域上,为了能够展示DNA研究的历史进程,采用知识图谱的科学方法进行描绘。随着互联网的快速发展,与互联网相关的研究便由此产生。人们开始研究如何将互联网的大量数据进行更好的描述和展示,Google在2012年便提出了知识图谱的概念,之后不久国内一些大厂也陆续对知识图谱进行了研究。诸如天猫的智能推荐、智能搜索等。
知识图谱在通用领域内的应用已经开始大放异彩,但是将知识图谱与学校本身的论文知识领域相结合的应用还寥寥无几,为了充分把握专业领域的发展热点,对毕业论文质量进行持续监控,持续改进毕业设计环节,同时结合知识图谱的特性,使学校管理员老师可以更加直观清晰的对过往论文进行回顾以及对热门技术的预测。
-
- 国内外研究现状
随着近几年知识图谱技术的进步,知识图谱研究与落地发生了一些转向。其中一个重要变化就是越来越多的研究与落地工作从通用知识图谱转向了领域或行业知识图谱,转向了企业知识图谱。知识图谱技术与各行业的深度融合已经成为一个重要趋势。
近几年一些大型企业对于利用知识图谱解决企业自身的问题十分感兴趣,于是就有了横贯企业各核心流程的企业知识图谱、领域知识图谱、行业知识图谱与企业知识图谱有时边界也十分模糊。近几年,这几类知识图谱得到越来越多的关注。目前国内对领域知识图谱的研究,已经有很多针对某一领域知识图谱的诞生,像气象学领域、电商领域、医疗领域以及金融领域的知识图谱,然而对教育相关领域的知识图谱确很少。
本文所探讨的领域是教育行业的软件工程毕业论文领域知识图谱的构建,主要是针对学生毕业论文类别与论文的对应,针对软件工程领域的技术信息构建知识图谱,利用自定义的中文分词方法与自定义的类别进行相似度匹配,从而建立技术类别和论文的对应。针对每一年论文数量多,内容比较庞杂,难以理顺数据脉络,知识图谱技术可以提取相应实体及实体间的语义关系,可以利用图数据库Neo4j进行数据存储与展示,获得一些人工很难得出的语义信息,有助于知识的充分利用。
-
- 论文的主要内容及组织结构
- 论文的主要内容
- 论文的主要内容及组织结构
本文主要的工作是根据任务书的需求,完成任务书里面的功能,最终设计并开发可视化系统以及系统的测试。需要完成的工作如下:
1、整理近5年青科软工毕业设计(论文)的基础信息(作者、题目、摘要、关键词、论文类型、指导教师等)。
2、通过自然语言处理,对论文题目进行分词,对热点词汇绘制标签云。
3、实现针对关键词热度随时间迁移的趋势变化分析。
4、开展针对某一主题的毕业论文知识图谱可视化分析。
5、对指导教师等其他信息进行统计和可视化呈现。
6、实现一个原型系统。
7、进行系统测试与功能测试,保证系统的正常运行
-
-
- 论文的组织结构
-
本文章节内容安排如下:
第1部分主要介绍项目背景以及本文主要的研究工作。
第2部分主要介绍相关的理论基础:Neo4j数据库、Echarts、Java POI、Nginx服务器等
第3部分是原始数据的导入和处理。主要介绍通过Java POI实现读取doc(x)、xls、pdf文件的读取。
第4部分主要介绍针对某一技术的知识图谱进行构建以及查询的实现。包括搭建Neo4j图数据库服务、Spring data Neo4j的使用、构建知识图谱、知识图谱的可视化、知识图谱的搜索。
第5部分对数据进行可视化分析,包括绘制高频词汇云、绘制近几年所用技术的趋势变化、其他信息的可视化。
第6部分详细概述原型系统的搭建。包括Vue-admin的使用、前后端分离的模式、安全框架Shiro的使用等。
第七部分进行系统的测试和部署。
第八部分对整体工作进行总结和展望,概括工作中存在的问题,并分析不足;对未来工作进行展望。