在线优先最近邻浏览与网络时间图模式挖掘
在线优先最近邻浏览算法性能分析
在处理图中的优先最近邻(NN)浏览问题时,不同规模的数据集下,不同算法的性能表现差异明显。
大数据集情况
对于属于大数据集的Q1、Q2和Q3查询,图9展示了不同算法的性能。在固定K值的情况下,从图9(a)到图9(f)可以看出,基于中心的处理算法(Center - D、Center - R和Center - L)相较于Pairwise算法具有明显优势。这三种基于中心的算法性能相近,且在处理时间和IO次数上比Pairwise算法少一个数量级。例如,当K = 500,000时,对于Q3查询,Pairwise算法需要24,013.76毫秒,而Center - D、Center - R和Center - L分别只需3,257.48、3,199.33和4,199.69毫秒;在IO次数方面,Pairwise消耗7,092次,而Center - D、Center - R和Center - L分别为1,290、1,141和1,714次。
当K值增加时,从图9(g)到图9(l)可以发现,基于中心的处理算法优势更加明显。以图9(g)为例,Center - D的处理时间从1,392.42毫秒到3,974.71毫秒,而Pairwise从7,882.60毫秒到23,924.01毫秒。并且,Center - D的IO次数对K值的增加不敏感,其IO次数从1,139到1,290,而Pairwise从1,928到7,051。
算法 | K = 500,000时Q3处理时间(毫秒) | K = 500 |
---|