Python一些可能用的到的函数系列53 使用numpy对序列进行区间化

本文链接：https://blog.csdn.net/yukai08008/article/details/117788043

本文介绍了一种使用numpy实现的高效区间映射方法，适用于数值和字符串数据，通过广播机制加速计算过程。该方法能够在微秒级别完成大量数据的映射操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说明

主要是利用numpy的广播进行高效的区间映射计算。在以前的函数上进行了修改，使得字符串也可以映射区间。

内容

先给结果

import numpy as np 
# 输入一个数据序列(vector)和一个尺度序列(vector)，返回数据映射的区间序列。按左闭右开原则。ruler两侧要加上极大极小的限制。
def np_interval_mapping(x_list, ruler_list):
    # 都转换为numpy array
    x1_dim1 = np.array(x_list)
    # 尺度必须为有序的
    r1_dim1 = np.sort(np.array(ruler_list))
    # 将x升维
    x1_dim2 = np.expand_dims(x1_dim1, -1)
    # 区间映射
    res_vec = len(r1_dim1) - (x1_dim2 < r1_dim1).sum(axis=1)
    return res_vec


---
%%timeit 
np_interval_mapping([1,2], [-1,0,1,2,3])
13.2 µs ± 279 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


%%timeit 
np_interval_mapping(['a','b'], ['a','b','c','d','e'])
13.4 µs ± 452 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

总体来说速度是很快的，尤其在数据量大的时候。我记得numpy的广播有点像异步执行的机制，但是效率肯定比调用其他包要更高。（更不要说for循环了）

原理简单解释

#x = np.array([1])
x = np.array(['b'])
#qtiles = np.array([0,1,2,3])
qtiles = np.array(['a','b','c','d'])

a1 = np.expand_dims(x, -1)

array([['b']], dtype='<U1')

a1.shape
(1,1)

a1 < qtiles 

array([[False, False,  True,  True]])

a2 = (len(qtiles1) + 1) - (a1 < qtiles1).sum(axis=1)