三维点云处理论文笔记

文章探讨了PointNet和PointNet++这两种深度学习技术在3D数据处理中的应用,重点介绍了PointNet如何处理稀疏数据和使用对称函数进行特征提取,以及PointNet++如何实现多尺度特征学习和处理非均匀密度。文章还涵盖了注意力机制、深度网络训练技巧和3D任务中的关键概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

 

1,名词解释

1,三维图像是在二维彩色图像的基础上又多了一个维度,即深度(Depth,D),

三维图像 = 普通的 RGB 三通道彩色图像 + Depth Map。

2,RGB-D 是广泛使用的 3D 格式,其图像每个像素都有四个属性:即红(R)、绿(G)、蓝(B)和深度(D)。

3,体素 (voxel),是体积元素 (volumepixel)的简称,是数字数据于三维空间分割上的最小单位

4,体素化(Voxelization)是将物体的几何形式表示转换成最接近该物体的体素表示形式,产生体数据集,包含模型的表面信息和内部属性。 

5,稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。

6,注意力机制(Attention Mechanism)是用来自动学习和计算输入数据对输出数据的贡献大小。

7,泛型,即“参数化类型”,将各种数据类型参数化,便于不同类型的数据之间进行比较

8,NLP(Natural Language Processing),即自然语言处理,就是研究如何将人的自然语言转换为计算机可以阅读的指令。

9,在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数。它是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来,即负责将神经元的输入映射到输出端。

 10,Batchnorm(批规范化)是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳定性的算法。

11,假设您有一个包含200个样本(数据行)的数据集,选择大小为5的Batch和1,000个Epoch。意味着数据集将分为40个Batch,每个Batch有5个样本。每批五个样品后,模型权重将更新。意味着一个epoch将涉及40个Batch或40个模型更新。有1000个Epoch,模型将暴露或传递整个数据集1,000次。在整个培训过程中,总共有40,000Batch。

12,隐藏层的意义就是把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。一层隐层网络就是一层特征层次,每一个神经元可以类似看作一个特征属性。

13,MLP(多层感知器),它由一个输入层、若干个隐层和一个输出层组成,每层包含若干个神经元,神经元之间通过权重连接。

14,RNN(循环神经网络)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络

15,陪域是输出的可能值的集

16,映射,或者射影。函数是从非空数集到非空数集的映射,而且只能是一对一映射或多对一映射。【一个x只能对应一个y,但多个x可以对应一个y】

partial function,对于X中的值,可以有Xi在Y中找不到相应的映射。
total function,Xi中所有的值,Xi在Y中都能找到相应的映射。
injective,单射。指将不同的变量映射到不同的值的函数。
onto,满射。指陪域等于值域的函数。即:对陪域中任意元素,都存在至少一个定义域中的元素与之对应。

bijective,双射(也称一一对应):既是单射又是满射的函数。直观地说,一个双射函数形成一个对应,并且每一个输入值都有正好一个输出值以及每一个输出值都有正好一个输入值。

17,常见缩写:

w.r.t:with respect to的缩写,意思是关于、谈到、涉及。
i.e.:id est的缩写,意思是即,换句话说。
et al. ;et alia(“and others;and co-workers”)的缩写,意思是:其他人、等人。通常在列文献作者时使用,把主要作者列出后,其他作者放在et al.中。
e.g.:exempli gratia的缩写,意思是例如。
etc.:etcetera的缩写,意思是...等。

18,设A是度量空间X的一个子集。 如果A中的每一个点都有一个以该点为中心的邻域包含于A,则称A是度量空间X中的一个开集。

19,拓扑是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的一个学科。. 它只考虑物体间的位置关系而不考虑它们的形状和大小。两个对象具有相同的拓扑,这意味着,即使这两个对象在几何形状上有所不同,但它们在拓扑上完全等价。

20,拓扑空间(X,τ)的数学对象集合是 X,空间拓扑是 τ,τ 包含 X 的一系列子集,满足下列条件:

(1)X 和空集包含在 τ 中。

(2)τ 中集合的任何并集也在 τ 中。

(3)τ 中集合的任何有限交集也都在 τ 中。

21,Hausdorff性

22,在机器学习中ground truth表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设。

23,交叉验证(k-fold策略,又称循环策略):在训练数据再中分出一部分做为验证(Validation)数据,用来评估模型的训练效果。验证数据不参与训练,这样可以相对客观的评估模型对于训练集之外数据的匹配程度。

24,DIM的对比任务是区分全局特征和局部特征是否来自同一幅图像。 在这里,全局特征是卷积编码器的最终输出 (一个平面向量,Y),局部特征是编码器中间层 (一个M x M特征图)的一个输出。

25,dim,即维度

26,马尔可夫性质:一句话总结就是“未来只与现在有关”,即给定一个过程当前状态及历史的所有状态,其未来状态仅依赖于当前状态,与历史状态无关。

27,稀疏意味着解向量 x 的大部分分量(权重)为零,只有少数是非零的。

28,正则化是在经验风险项后面加上正则罚项,使得通过最小化经验风险求解模型参数转变为通过最小化结构风险求解模型参数,进而选择经验风险小并且简单的模型。

2,特点

(1)直接消耗点云:直接将点云作为输入,并输出整个输入的类标签或每个输入点的每个点段/部分标签。

(2)为许多3D识别任务提供了统一的方法,包括对象分类、部件分割和语义分割

(3)方法的关键是使用一个单一的对称函数,最大池。最大池化层作为一个对称函数来聚合来自所有点的信息。

(4)局部和全局信息组合结构:在计算出全局点云特征向量后,通过将全局特征与每个点特征连接起来,将其反馈给每个点特征。然后,我们在组合点特征的基础上提取新的每点特征——这一次,每点特征既知道局部信息,也知道全局信息。

(5)两个联合对齐网络来对齐输入点和点特征:不需要创建任何新的图层,也不需要引入别名。通过一个迷你网络预测一个仿射变换矩阵,并直接将这个变换应用到输入点的坐标上。该网络本身类似于大网络,由点无关特征提取、最大池化和全连通层等基本模块组成。

(6)在softmax的训练损失中增加了一个正则化项,使约束特征变换矩阵接近于正交矩阵,减小变换矩阵的优化难度。

(7)网络的最终全连接层将学习到的最优值聚合到整个形状的全局描述符中(形状分类),或者用于预测每个点的标签(形状分割)。

二,PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

1,名词解释

1,度量(或距离函数)是一个定义集合中元素之间距离的函数。 一个具有度量的集合被称为度量空间

2,垂直于表面的就是轴向,平行于表面的就是径向。

3,最远点采样(FPS):每一次都选最远的点加入进来,这样能够使得所选的点足够分散并覆盖全部。  关键在于每次都要选最远的点。  
(1) 第一个点可以随便初始化  
(2)第二点选最远的点  
(3)第三个点,让新增的每个点都与第一个点和第二个点计算距离,这会有两个距离值,选择最短的那个距离表示他们与这两个点的距离,因为这表示的就是剩下的这些点分别到已经被选的两个点的距离,从这些距离里面选距离值最大的点,也就是最远的那个点,这就能满足我们每次都选最远点的目的了。
(4)重复上面的步骤,直到达到期望的采样点个数即可结束。
4,接收场(RF):神经元连接到前一层的输出体积上的局部区域(包括其深度)。

5,插值:f(x)为定义在区间 [a,b]上的函数,X1,X2,...Xn为[a,b]上n个互不相同的点, G为给定的某一函数类。若G上有函数 g(x)满足:g(Xi)=f(Xi),i=1,2,...,n,则称g(x)为f(x)关于节点X1,X2,...Xn在 G上的插值函数。

6,反距离权重法假定每个测量点都有一种局部影响,而这种影响会随着距离的增大而减小。

7,将低维空间所总结的规律推广到有限的n维空间,这些符合定义的空间被统称为欧几里得空间(欧式空间)。非欧几何,维度发生了弯曲。在非欧几何中,平行的直线只在局部平行,就像地球的经线只在赤道上平行。

8,测地线就是在一个三维物体的表面上找出两个点的最短距离。

9,非刚性变形的思想是:皮肤变形,不是由单一骨骼的运动来控制,而是由许多骨头的共同运作的结果来支配。

2,特点

1,PointNet++的三个功能:分类、语义分割、部件分割,对应于三个不同的网络,核心都是Set Abstraction (SA) Module。这个模块对点云进行降采样并提取采样后的点的邻域特征,从而实现不同层级、不同尺度的特征提取与识别。通过多个SA模块的级联,可以同时兼顾点云的局部和全局信息直接在点云上学习,避免了额外的量化误差,并进行数据依赖采样,使学习更有效。引入了分层特征学习,并捕获了不同尺度的几何特征。利于理解多个层次的场景和标记不同大小的对象。加入密度自适应层,对于训练数据(均匀点随机dropout)和非均匀密度的扫描数据之间存在域间隙,只受到轻微影响。

2,多尺度分组(MSG):应用不同尺度的分组层,然后根据PointNets提取每个尺度的特征。将不同尺度的特征串联起来,形成多尺度特征。

优点:当局部区域的密度很高时,提供了更精细的细节信息,因为它具有在较低水平上以更高分辨率递归检查的能力。

缺点:它在每个质心点的大规模邻域上运行本地PointNet,质心点的数量通常在最低水平相当大,时间成本高,计算量大。且子区域包含更稀疏的点,更容易受到采样缺陷的影响。

3,多分辨率分组(MRG):保留了根据点的分布特性自适应聚合信息的能力

优点:避免了在最低层次上对大规模邻域进行特征提取,计算效率更高。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值