KDtree高维空间特征向量分类树的缺陷与补救方案

最新推荐文章于 2024-07-05 22:00:03 发布

原创

最新推荐文章于 2024-07-05 22:00:03 发布 · 595 阅读

·

8

·

CC 4.0 BY-SA版权

内容如果有帮到你，求求给个点赞关注思密达~

文章标签：

#分类 #人工智能 #数据挖掘 #深度学习 #算法 #YOLO

背景描述

最近在做高维特征向量查找比对的过程中，由于数据库内的数据过于庞大，从头遍历效率太低，故想要寻找一些快速的高维空间向量的查找方式。

经过调研与学习，笔者发现有球树、KDtree等多种高维空间向量查找方式，但是都存在一个共性的问题，即：在分类边界容易出现分类错误的现象发生。故在本篇笔者提出了一种新的高维空间向量查找方式，希望可以对读者有新的启发。

原理详解

KDtree原理详解与缺陷详解

原理详解

KDtree的构建过程是一个递归的过程，其核心在于不断将特征向量空间细分为更小的子空间。在每一次递归中，选择某一维度进行划分，并确定一个划分点，将当前子空间划分为两个子空间。这一划分过程基于数据的分布特性以及分类任务的需求，旨在使得划分后的子空间内数据点的相似度尽可能高，而不同子空间间的数据点相似度尽可能低。

为了确定划分维度和划分点，我们采用了一系列统计方法。具体而言，我们计算每个维度上的数据分布特性，包括方差、信息增益，并选择那些能够最大程度区分不同类别的维度进行划分。划分点的选择则基于该维度上数据的分布情况，选择能够使得划分后子空间内数据点分布尽可能均匀的点作为划分点。

在划分子空间的过程中，我们还需要为每个子空间选取一个代表向量。这个代表向量选择为该子空间内所有数据点的均值或中位数，它能够较好地反映该子空间内数据点的整体特性。通过将代表向量作为分类树的节点，我们构建了一个能够反映特征向量分布的分类树结构。

最终得到的高维分类树不仅具有直观的结构，而且能够高效地处理高维数据。通过遍历分类树，我们可以快速地找到与给定特征向量相似的数据点，从而实现高效的分类和检索任务。

缺陷详解

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄6年

人工智能领域新星创作者

108
原创

1702
点赞

1810
收藏

5288
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Tkinter库运行原理、回调函数和After方法详解

下一篇：: 工作目录问题，明明有该文件却import错误？

最新评论

EasyOCR（一）超强超便捷的OCR开源算法介绍与文本检测模型CRAFT微调方法
千天夜: emmmm，在下是打工牛马，数据集皆为公司所有，恐难公开~
Qt开发中多线程并发QThread子循环需要刷新主循环如何实现？
千天夜: 您如果还想观看的话，可以再回复我下，我把权限开开
YOLO系列基础（六）YOLOv1论文原理详解，清晰明了！
qq_52052603: 好的博主，从这方面来说就是要尽可能保证数据足够有代表性，保证在较大范围的分布上这种映射关系是稳定的
Qt开发中多线程并发QThread子循环需要刷新主循环如何实现？
zjxiuqiao: 最低0.47元/天解锁文章
YOLO系列基础（六）YOLOv1论文原理详解，清晰明了！
千天夜: 如果不是实战的问题，而是理论探讨的话。我想原因是这样。在视觉神经网络中，大致可以分为两个阶段，一个是主干网络，用以输出特征向量。一个是检测头，用以生成类别、检测框、置信度等。在训练完成后，主干网络针对图片的特征向量的生成如果没有问题，那么针对类别、置信度、检测框的生成则就是一个映射关系问题。如何保证检测框的精准这个问题，实际上和如何保证分类结果正确性实际上是等价的，都是尽量确保这个映射关系的正确性，预测的时候没有所谓的真值来做效果的衡量和评判，我们能做的就是使得模型更具有普适性。另外box的标签并非采用的图片的全局坐标，而是相对于所位于的cell左上角的相对位置，就引出了后文的FPN结构，这很大程度上也使得box的预测更加准确。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

千天夜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。