Numpy多维数组的内存设计与实现原理

最新推荐文章于 2021-07-01 20:47:33 发布

十里清风

最新推荐文章于 2021-07-01 20:47:33 发布

阅读量2.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python numpy 数组内存原理切片索引

本文链接：https://blog.csdn.net/sinat_34072381/article/details/84551247

python 专栏收录该内容

9 篇文章

订阅专栏

本文深入解析了Numpy库中ndarray对象的内存布局原理，包括一维连续内存段存储方式、索引解析机制及切片索引的视图原理。通过具体实例展示了如何计算元素地址和切片索引的跨度列表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、内存设计与实现原理

ndarray的内存结构

类ndarray的实例本质上由一个连续的一维内存段和一个索引方案组合而成。这种将所有数据存放在一个连续的一维内存段的存储方式，实际与C语言中的多维数组存储方式一致。但Numpy索引的灵活设计，使得ndarray对象可适应于任何跨步索引方案，以下对ndarray对象以行作为主要存储顺序的内存设计进行说明。

Numpy在创建数组或建立数组视图时，将数组的信息记录在不同属性，如shape属性指定各维度的元素的数量，dtype属性指定元素类型及其解释方式，strides属性指定各维度的跨度，itemsize属性指定单个元素占用字节数。

图1 ndarray对象在内存中的存储与索引

索引的解析

对于 $N$ 维的数组 $array\sf array$ ，将各维度的跨度存放在 $strides\sf{strides}$ 列表中，则第 $k + 1$ 维的跨度
$strides[k]={itemsize,k=N−1itemsize×∏j=k+1N−1shape[j],k=0,⋯ ,N−2{\sf strides}[k] = \begin{cases} {\sf{itemsize}}, &k=N-1\\ {\sf{itemsize}} \times \prod_{j=k+1}^{N-1}{\sf{shape}}[j], &k=0,\cdots,N-2\\ \end{cases}$

令数组 $array\sf array$ 的首元素地址为 $&array\&{\sf{array}}$ ，则数组中坐标为 $(i0,i1,⋯ ,iN−1)(i_0,i_1,\cdots,i_{N-1})$ 的元素的地址
$&array[i0][i1]⋯[iN−1]=&array+∑k=0N−1ik×strides[k]\&{\sf{array}}[i_0][i_1]\cdots[i_{N-1}]= \&{\sf{array}} + \sum_{k=0}^{N-1}i_{k}\times {\sf{strides}}[k]$

利用以上公式计算出给定坐标对应的地址，即 $&array[i0][i1]⋯[iN−1]\&{\sf{array}}[i_0][i_1]\cdots[i_{N-1}]$ ，然后即可得到 $array[i0][i1]⋯[iN−1]{\sf{array}}[i_0][i_1]\cdots[i_{N-1}]$ 的值。

实例

对于数据类型为int32（占4字节）的二维整型数组
$b=(0123456789101112131415)\bm b = \left(\begin{matrix} 0 &1 &2 &3 \\ 4 &5 &6 &7 \\ 8 &{\bm\color {red}9}&10 &11 \\ 12 &13 &14 &15 \end{matrix}\right)$

其形状 $shape=(4,4){\sf shape}=(4,4)$ ， $itemsize=4{\sf itemsize}=4$ ，因此不难计算出跨度列表 $strides=[16,4]{\sf strides}=[16, 4]$ 。

若以 $b [2] [1]$ 的索引方式访问元素 $9$ ，实际底层是将引用地址解析为
$&b[2][1]=&b+2×strides[0]+1×strides[1]=&b+36\&b[2][1] = \&b + 2 \times {\sf strides}[0] + 1\times {\sf strides}[1] = \&b+36$

显然，地址 $&b+36\&b+36$ 存储的值为目标元素 $9$ ，即完成了索引的解析。

2、切片索引的视图原理

切片索引的解析

对于二维数组 $b$ ，使用以下起始值及步长对其进行切片
$b[{\sf begin_0:end_0:step_0}, {\sf begin_1:end_1:step_1}]$

易知，结果数组 $a$ 的首地址
$&a=&b[begin0,begin1]=&b+begin0×strides[0]+begin1×strides[1]\&a=\&b[{\sf begin_0}, {\sf begin_1}]=\&b+{\sf begin_0}\times {\sf strides}[0] + {\sf begin_1}\times {\sf strides}[1]$

基于各维度的切片步长，更新切片索引结果数组 $a$ 的跨度列表
$strides′=step×strides=[step0,step1]×strides{\sf strides'} = {\sf step} \times {\sf strides} = [{\sf step_0}, {\sf step_1}] \times {\sf strides}$

此时，利用结果数组 $a$ 的起始地址 $&a\&a$ 以及新的跨度列表 $strides′{\sf strides'}$ ，使用索引 $a [i] [j]$ 的形式依然可以访问到目标元素。

切片索引要求每一维度具有固定的切片步长，因此我们仅需要创建一个原始数组的视图，并根据起始位置以及各维度的切片步长，修改视图的起始位置以及各维度的跨度，即可访问到结果数组中的目标元素。因此，切片索引不需要复制原始数据。由于整数数组索引步数的随机性，不能通过更改索引方案的方案访问原数组。因此，整数数组索引返回的是原始数组的副本。

实例

对于数组 $b$ ，执行切片 $a = b [: : 3, 1 : : 2]$ ，得到红色标记位置元素
$b=(0123456789101112131415),a=(131315)\bm b = \left(\begin{matrix} 0 &{\bm\color {red}1} &2 &{\bm\color {red}3} \\ 4 &5 &6 &7 \\ 8 &9 &10 &11 \\ 12 &{\bm\color {red}13} &14 &{\bm\color {red}15} \end{matrix}\right), \quad\bm a=\left(\begin{matrix} 1 &3\\ 13 &15 \end{matrix}\right)$

原数组 $b$ 的跨度列表 $strides=[16,4]{\sf strides}=[16, 4]$ ，结果数组 $a$ 的首地址 $&a=&b+4\&a=\&b+4$ ，结果数组 $a$ 的跨度列表 $strides′=[48,8]{\sf strides'}=[48, 8]$ 。

通过索引 $a [1, 1]$ 的方式访问元素15，实际底层将引用地址解析为
$&a[1][1]=&a+1×strides′[0]+1×strides′[1]=&a+56=&b+60\&a[1][1] = \&a + 1 \times {\sf strides'}[0] + 1\times {\sf strides'}[1] = \&a+56 = \&b+60$