网络中心性度量详解：从Data-Science-45min-Intros项目学习关键指标-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00862/article/details/148972018

网络中心性度量详解：从Data-Science-45min-Intros项目学习关键指标

网络中心性概述

在网络分析中，"中心性"是衡量节点重要性的关键指标。不同的中心性度量反映了对"重要性"的不同理解，选择哪种度量取决于你具体想量化什么。本文将深入探讨四种主要的中心性度量方法：度中心性、特征向量中心性、Katz中心性和PageRank。

基础概念准备

邻接矩阵

邻接矩阵是表示网络结构的核心工具。对于一个有n个节点的网络，邻接矩阵A是一个n×n的方阵，其中A[i][j]=1表示节点i到节点j存在一条边。

import numpy as np
import igraph

# 获取示例网络数据
network = igraph.Nexus.get("kaptail")['KAPFTI1']
adj_mat = np.array(network.get_adjacency().data)
num_nodes = adj_mat.shape[0]

度(Degree)的概念

度：节点连接的边总数
入度：指向该节点的边数(列求和)
出度：从该节点发出的边数(行求和)

outdegree = np.sum(adj_mat, 1)  # 出度
indegree = np.sum(adj_mat, 0)   # 入度

度中心性(Degree Centrality)

核心思想

最简单的中心性度量就是节点的度。度中心性认为连接数最多的节点最重要。

实现与可视化

# 计算并可视化度中心性
names_and_degrees = {network.vs["name"][i]: {"in": indegree[i], "out": outdegree[i]} 
                    for i in range(num_nodes)}
sorted_data = sorted(names_and_degrees.items(), key=lambda x: -(x[1]["in"] + x[1]["out"]))

# 绘制入度和出度条形图
plt.figure(figsize=(16,6))
plt.bar(range(num_nodes), [x[1]["in"] for x in sorted_data], color='darkorange')
plt.bar(range(num_nodes), [x[1]["out"] for x in sorted_data], bottom=[x[1]["in"] for x in sorted_data], 
       color='navajowhite')
plt.xticks(range(num_nodes), [x[0] for x in sorted_data], rotation=90)
plt.legend(["In-degree", "Out-degree"])
plt.title("Degree Centrality")

应用场景

度中心性计算简单，适用于：

快速识别网络中的"集线器"节点
分析局部连接密度
当节点重要性主要由直接连接数决定时

特征向量中心性(Eigenvector Centrality)

核心思想

特征向量中心性认为，一个节点的重要性不仅取决于它的连接数，还取决于其邻居的重要性。它通过邻接矩阵的主特征向量来计算节点重要性。

数学表示为：x' = A·x，其中A是邻接矩阵，x是中心性向量。

迭代实现

eigenvector_centrality = np.ones((num_nodes, 1)) / np.linalg.norm(np.ones((num_nodes, 1)))
err, tol = 100, 0.01

while err > tol:
    new_centrality = np.dot(adj_mat, eigenvector_centrality)
    new_centrality = new_centrality / np.linalg.norm(new_centrality)
    err = np.sum(np.abs(new_centrality - eigenvector_centrality))
    eigenvector_centrality = new_centrality

矩阵实现

e_vals, e_vecs = np.linalg.eig(adj_mat)
principal_eigenvector = e_vecs[:, e_vals.argsort()[-1]]

局限性

特征向量中心性在非强连通网络中表现不佳，因为非强连通部分的节点会得到零中心性。

Katz中心性

核心思想

Katz中心性通过给每个节点分配一个基础重要性(β)来解决特征向量中心性的局限性。其公式为：

x = αA·x + β1

其中α控制邻居影响力的权重，β是基础重要性。

实现

alpha = 0.1  # 必须小于1/最大特征值
beta = 1
I = np.eye(num_nodes)
katz_centrality = np.linalg.inv(I - alpha * adj_mat) @ (beta * np.ones((num_nodes, 1)))

α的选择

α必须小于邻接矩阵最大特征值的倒数，否则矩阵求逆会发散。

PageRank

核心思想

PageRank是Katz中心性的变体，增加了"阻尼因子"d，模拟用户随机跳转到任意节点的行为：

x = dA·x + (1-d)1/n

实现

d = 0.85  # 阻尼因子
M = adj_mat / np.sum(adj_mat, axis=0, keepdims=True)  # 列归一化
pagerank = np.linalg.inv(np.eye(num_nodes) - d * M) @ ((1-d)/num_nodes * np.ones((num_nodes, 1)))

中心性度量比较

| 度量方法 | 核心思想 | 适用场景 | 计算复杂度 | |---------|---------|---------|-----------| | 度中心性 | 连接数决定重要性 | 快速识别集线器 | O(n) | | 特征向量中心性 | 重要节点连接重要节点 | 强连通网络 | O(n²)迭代 | | Katz中心性 | 基础重要性+邻居影响 | 弱连通网络 | O(n³)矩阵求逆 | | PageRank | 随机游走+跳转概率 | 网页排名、推荐系统 | O(n³)矩阵求逆 |