图的定义
图在生活中无处不在,如社交网络,知识图谱,蛋白质结构等。对于图,我们习惯上用G=(V,E)G=(V,E)G=(V,E)表示。这里VVV是图中节点的集合,而EEE为边的集合,这里记图的节点数为NNN。
通常,一个图中有3个比较重要的矩阵:
邻接矩阵AAA:用来表示节点间的连接关系,一般是0-1矩阵;
度矩阵DDD:每个节点的度指的是其连接的节点数,这是一个对角矩阵;
特征矩阵XXX:用于表示节点的特征。
有向图和无向图
区别在于节点之间存不存在指向关系,有指向关系的是有向图,反之则是无向图
度
指节点相连的边的数量。若是有向图,则分为出度(箭头指出的边数)和入度(箭头指入的边数)
连通图
在无向图中,若从顶点v1到顶点v2有路径,则称顶点v1与顶点v2是连通的。如果图中任意一 对顶点都是连通的,则称此图为连通图。
图的直径
是指连接任意两个节点的所有最短路径中最长路径的长度。(即,将任意两个节点的最短路径存在一个list当中,其中最大值是图的直径)
度中心性
在网络中,一个节点的度越大,就意味着这个节点的度中心性就越高,就说明在网络中这个节点越重要。度中心性等于当前节点的度数/总节点数-1 (很合理,度数越大说明越重要,减去的1是自身)
特征向量中心性
一个节点的重要性取决于其邻居节点的数量(即该节点的度),也取决与其邻居节点的重要性。与之相连的邻居节点越重要,则该节点就越重要。
用上述的图解释,首先对邻接矩阵AAA做特征值分解,得到对应的特征值和特征向量。然后取最大的特征值对应的特征向量,取绝对值,即得到特征向量的中心性。因为图中1,5节点的度都为3,因此1和5的特征向量中心性最大,而2,3,4节点的度都是2,但是特征向量中心性不一样,2连接了1,3连接了5,但是4连接了1和5,特征向量中心性与该节点的邻居节点重要性相关,所以4的特征向量中心性比2和3的大。
import numpy as np
import pandas as pd
import networkx as nx
edges = pd.DataFrame()
edges['sources'] = [0,1,2,3,4,4,6,7,7,9,1,4,4,4,6,7,5,8,9,8]
edges['targets'] = [1,4,4,4,6,7,5,8,9,8,0,1,2,3,4,4,6,7,7,9]
#edges['weights'] = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
# source 为起点,target为终点, weight为度
G = nx.from_pandas_edgelist(edges, source='sources',target='targets')
# degree
print(nx.degree(G))
# 连通分量
print(list(nx.connected_components(G)))
# 图直径
print(nx.diameter(G))
# 度中心性
print('度中心性',nx.degree_centrality(G))
# 特征向量中心性
print('特征向量中心性',nx.eigenvector_centrality(G))