量化新领域的出现:以网络安全为例
1. 引言
随着互联网和数字数据库的发展,大量文档得以公开,科学家们也能实时分享研究成果。然而,学术数据的快速增长给数据挖掘和知识发现带来了新的问题和挑战。其中一个严重的问题是,不同实体之间的映射关系随着数据量的增加和数据类型的多样化呈指数级增长,这使得分析大规模语料库成为一个具有挑战性的研究领域。因此,我们需要开发更强大的数据分析技术,从新的视角研究大数据背后隐藏的信息和科学本身。
从另一个角度来看,基于各种大型学术数据,如引文网络、合著者网络、共引网络、共词网络或混合网络等,引文关系被用于理解科学作品的影响力、个人的科学影响力或科学知识的传播。但现有的研究大多基于直观构建的现有关系网络,对间接关联和网络构建的深入探索不足。
在本文中,我们聚焦网络安全领域,从微软学术(Microsoft Academic)收集了1,824,829篇属于798个不同领域的文章,以此来研究新领域的出现模式。我们提出了以下三个研究问题:
- 问题1 :如何识别领域之间经过验证的、显著的衍生关系,从而量化新领域的出现?
- 问题2 :新领域如何随着时间的推移发展成熟并激发新领域的出现?
- 问题3 :激发新领域出现的祖先领域(ancestral domains)有哪些特征,包括动态模式?
2. 背景和数据集
2.1 微软学术
微软学术是一个语义搜索引擎,利用实体挖掘、机器学习和搜索技术,可检索学术文章、科学家、会议、期刊和研究领域的相关信息。它也是许多研究理念