机器学习 - meanshift算法

本文深入讲解了Meanshift算法的工作原理及其实现步骤。包括基本Meanshift算法流程:通过质心逐步向数据密集区域漂移来寻找局部最大密度点;以及改进的Meanshift算法,通过对向量归一化避免质心漂移过快导致的震荡问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

meanshift算法:均值漂移,本质上是质心(下图的圆心)逐渐向样本点越来越密的地方进行偏移。最后算法收敛,质心就处在样本点最密的地方。


1. 基本meanshift算法

基本mean shift算法流程如下:

1)随机选择一个点x0,画圆/球,x0为第一个mean。

2)以x0为起点,球内其他点为终点,形成多个meanshift向量。

3)上述所有向量求和,生成一个x0为起点,x1为终点的向量。

4)mean漂移到x1。

5)以x1为第二个mean,重复上述过程。

从算法中,我们容易知道,mean整体上是朝着数据更密集的地方漂移的,因为数据越密集的地方,向量越多,越容易让x0x1向量指向这个方向。


2. 改进的meanshift算法

基本meanshift算法有非常大的缺陷,比如上面算法中的第三步,当球内某一侧的点特别多时,生成的向量x0x1可能会非常长,以至于mean会漂得很远,甚至跨到一个周围根本没有点的地方。这样算法就非常容易震荡而无法收敛。

1)对球内的每个向量进行归一化。

2)对meanshift向量进行归一化。


3. meanshift算法实现

# -*- coding: utf-8 -*-
import numpy as np
import utils

class MeanShift:
    def __init__(self, mean, radius):
        """
        mean:   meanshift算法的球心mean
        radius:meanshift算法的球半径
        """
        self.mean = mean
        self.radius = radius
        
    def _compute_distance(self, train_x):
        """ 计算所有点到球心的距离 """
        return np.sqrt(np.sum((train_x - self.mean)**2, axis=1))

    def create_ball(self, train_x):
        """ 1. 生成球
        train_x:        所有数据
        
        distance:       所有点到球心mean的距离
        inBall_index:   球内点, 在整个数据中的索引
        """
        # 1. 计算距离
        distance = self._compute_distance(train_x)
        
        # 2. 找出球内的点
        inBall_index = np.argwhere(distance <= self.radius)
        return inBall_index.reshape(len(inBall_index),)
    
    def compute_meanshiftVector(self, train_x, inBall_index):
        """ 2. 计算meanshift向量
        train_x:        所有数据
        inBall_index:   球内点, 在整个数据中的索引
        
        allVector:      球内所有点生成的向量
        return:         meanshift向量
        """
        allVector = train_x[inBall_index] - self.mean
                           
        # 对球内所有向量进行归一化
        length = len(allVector)
        for i in range(length):
            allVector[i, :] = allVector[i, :] / sum(allVector[i, :]**2)
        
        # 计算meanshift向量同时归一化
        meanshiftVector = np.sum(allVector, axis=0)
        meanshiftVector = meanshiftVector / np.sqrt(sum(meanshiftVector**2))
        return meanshiftVector
    
    def update_mean(self, meanshiftVector):
        """ 3. 更新mean, 即球心 """
        self.mean = self.mean + meanshiftVector
        

def main(max_iter, mean, radius):
    train_x = utils.load_data()
    
    for i in range(len(mean)):
        iter_times = 0
        obj = MeanShift(mean[i, :], radius)
        while iter_times < max_iter:
            inBall_index = obj.create_ball(train_x)
            meanshiftVector = obj.compute_meanshiftVector(train_x, inBall_index)
            obj.update_mean(meanshiftVector)
            iter_times += 1
        print(obj.mean)

if __name__ == "__main__":
    mean = np.array([[2, 2], [2, -2], [-2, 2], [-2, -2]])
    radius = 1
    main(200, mean, radius)

# -*- coding: utf-8 -*-
"""
file: utils.py
author: UniqueZ_
date: 2017-07-28
"""
import numpy as np
import matplotlib.pyplot as plt
import time

def load_data():
    with open("../mean_shift/data/testSet.txt", "r") as f:
        train_x = []
        for line in f.readlines():
            train_x.append(line.strip().split("\t"))
    train_x = np.array(train_x, np.float)
    return train_x

图中点的分类,可以使用欧氏距离来计算每个点离四个mean的距离,然后把该点划分到离它最近的mean。

参考文献

http://blog.csdn.net/google19890102/article/details/51030884

http://blog.csdn.net/jinshengtao/article/details/30258833

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值