- 博客(4619)
- 资源 (4)
- 收藏
- 关注
原创 OpenCV-图像处理-几何变换:图像缩放、图像平移、图像旋转、仿射变换、透射变换
缩放:改变图像大小,矩阵对角线元素控制缩放比例平移:移动图像位置,矩阵第三列控制平移量旋转:围绕中心点旋转,三角函数构成旋转矩阵仿射变换:线性变换的组合,保持直线和平行性透视变换:非线性变换,模拟三维投影效果掌握这些变换的数学原理,有助于理解和应用各种计算机视觉算法。在实际编程中,OpenCV等库已经封装了这些变换函数,但理解其数学本质对于参数调优和算法改进非常重要。本教程适合高中及以上数学基础的读者学习。建议结合实际编程练习加深理解。
2025-08-16 00:14:49
622
原创 OpenCV-图像处理-几何变换:仿射变换
仿射变换(Affine Transformation)是计算机视觉中最基础也是最重要的几何变换之一。简单来说,它是一种保持"直线性"和"平行性"的变换。这些操作的组合就是仿射变换!
2025-08-15 23:59:47
495
原创 概率论与数理统计教程(七)-假设检验02-2:正态总体参数假设检验02
在对两个总体均值进行比较时,有时数据是成对出现的,此时若采用二样本 ttt 检验所得出的结论有可能是不对的,下面看一个例子。例 7.2.4 为了比较两种谷物种子的优劣,特选取 10 块土质不全相同的土地,并将每块土地分为面积相同的两部分,分别种植这两种种子,施肥与田间管理在 20 小块土地上都是一样,下面是各小块上的单位产量:假定单位产量服从正态分布,试问:两种种子的平均单位产量在显著性水平 α=0.05\alpha=0.05α=0.05 上有无显著差异?解 假定 x∼N(μ1,σ12),y∼N(μ2,σ2
2025-08-15 06:12:16
486
原创 PPO、GRPO、GSPO 完整对比解析
核心发现:GSPO的创新在于将重要性比率从token级提升到序列级,这是一个重大的理论突破。策略优化是强化学习的核心,目标是让AI学会在不同情况下做出最好的决策。想象你在教一个机器人下棋:1.3 核心思想对比PPO:使用token级重要性比率和裁剪机制,需要价值网络估计优势函数GRPO:使用token级重要性比率但采用群组归一化优势,去除价值网络依赖GSPO:使用序列级重要性比率和序列级裁剪,解决token级方法的根本问题P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A \ca
2025-08-14 22:40:47
282
原创 UI-Genie无人工标注训练数据生产方法详解
UI-Genie采用了一个自我改进的循环框架,通过Agent和Reward Model的协同进化来生成高质量的训练数据,完全避免了人工标注的需求。fill:#333;color:#333;color:#333;fill:none;自我改进循环数据生成策略轨迹生成奖励模型评估高质量轨迹筛选数据集扩充Agent模型更新奖励模型更新规则验证轨迹破坏困难负样本挖掘初始Agent模型完全无监督的数据生成:不需要任何人工标注自我改进循环:Agent和Reward Model协同进化。
2025-08-14 16:15:42
12
原创 从对话到自主操作——ChatGPT问世以来移动端AI Agent的演进与展望
其强大的自然语言理解、生成、推理和上下文记忆能力,彻底颠覆了人们对人机交互的认知 [13],也为移动端Agent的发展指明了新的方向。这些开源项目,特别是AppAgent和DroidRun,直接解决了移动Agent的核心技术难题——GUI的理解与操控,为开发者提供了可参考的范例和可复用的代码库。将强大的LLM驱动的Agent部署到资源受限的移动设备上,是一项巨大的技术挑战。这一趋势表明,未来的移动Agent将不再是孤立的应用,而是成为操作系统的“智能中枢”,成为连接用户、数据和服务的核心桥梁。
2025-08-12 13:49:42
92
原创 Agent低代码平台
Dify 提供从数据预处理到模型监控的全链路工具,支持私有化部署与 API 集成。支持通过流程图形式自由组合循环、并行、批处理等复杂逻辑,覆盖文档审核、报告生成、多代理协作等企业级场景,用户可实时干预流程执行。集成统一模型管理、RAG增强生成、模型微调(SFT)、数据集管理、安全审计、RBAC权限控制等高阶功能,支持高并发与高可用部署。自动化数据预处理(支持 PDF、Word 等格式解析)、可视化工作流编排(Flow 模块)、与 OpenAI 对齐的 API 接口,以及针对海量数据的 QA 结构优化。
2025-08-12 12:36:18
21
原创 Multi-Agent框架
CrewAI强调"以任务为中心"的编排理念,内置任务优先级调度、结果聚合模块,适用于自动化工作流、数据管道和科研计算等场景,助力开发者构建工业级多智能体系统。由微软推出的一个框架,支持创建和管理多个自主Agent,协同完成复杂的任务。这个框架的灵活性极高,可以根据需求定义不同类型的Agent,包括特定任务的专家、通用助手、策略制定者等。LangGraph不仅适用于各类Multi-Agent任务,还能支持几乎所有的多智能体编排应用,使其成为那些面临复杂任务、追求高度灵活性和定制化能力的开发者的首选工具。
2025-08-12 12:34:59
19
原创 2025年,AI Agent干货资料、论文综述都在这了
关于Agent,有很多种说法,到底什么样的系统属于AI Agent?去年,吴恩达提出了Agentic Workflow,还有类似BabyAGI的自主智能体。广义上说,这两种都算AI Agent,两者都能在未来GenAI应用场景发挥巨大作用,但两种有本质上的区别。
2025-08-12 12:24:50
22
原创 实例分割研究综述【2025年8月12日】
本文系统梳理了截至 2025 年 8 月实例分割领域的研究进展。我们介绍了基本概念与指标,总结了传统方法、Mask R‑CNN 及其衍生、单阶段和动态卷积方法、点集与极坐标方法、Transformer 及扩散模型等创新架构,对开集分割、视频/三维实例分割和弱监督等方向进行了阐述,并回顾了 COCO 和 Cityscapes 等关键数据集的作用arxiv.orgarxiv.org。我们还讨论了广泛的应用场景、面临的挑战和未来趋势,重点强调了 Segment Anything 等基础模型的影响。
2025-08-12 00:29:04
417
原创 目标分割综述【2025年8月12日】
目标分割是计算机视觉领域的核心课题之一,它关注于将复杂的图像或视频划分成具有明确语义或实例意义的区域。随着人工智能的发展,图像和视频中包含的信息量越来越大,粗略的目标检测或分类已经无法满足诸如自动驾驶、智能医疗、精准制造和虚拟现实等场景对细粒度理解的需求。目标分割不仅能够标识目标的位置,还能精确地确定每个像素属于哪一类或哪一个实例,实现从粗粒度到精细化的视觉理解。
2025-08-12 00:26:59
657
原创 目标检测领域进展调研报告【截止到2025年8月11日】
目标检测的输出通常采用边界框(Bounding Box)表示,边界框由矩形框的左上角坐标 x,yx,yx,y 以及宽高 w,hw,hw,h 四个参数描述。有些方法还会输出旋转角度或多边形顶点以精确描述目标形状。对于每个候选目标,算法需要预测该目标属于哪一类别,并给出其在图像中的坐标。由于同一张图像可能包含多个目标,目标检测问题属于多实例识别问题,这与单一目标的图像分类或语义分割有所不同。综上所述,目标检测经历了从传统滑动窗口到深度卷积网络、从两阶段到单阶段、从手工特征到自注意力和多模态融合的演变。
2025-08-12 00:04:39
869
原创 目标检测-评测指标:mAP、FPS、IoU
mAP(mean Average Precision)是用来衡量目标检测模型在多个类别上的整体表现的指标,主要关注模型的准确性(Precision)和全面性(Recall)。FPS(Frames Per Second)是衡量目标检测模型处理图像速度的指标,主要关注模型的实时性。希望这个解释对你理解目标检测的评测指标有所帮助!
2025-08-11 22:02:35
744
原创 【HM】CV03-目标检测(Object Detection)10-KITTI 人、车物体检测【案例】
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。
2025-08-11 01:50:09
431
原创 【HM】CV03-目标检测(Object Detection)09-SSD算法原理
SSD的特点在于:SSD结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制,使用全图各个位置的多尺度区域进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。SSD的核心是在不同尺度的特征特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。1、SSD在VOC2007,VOC2012及COCO数据集上的性能,如下面所示。相比之下,SSD512的性能会更好2、多尺度特征图对SSD的影响。
2025-08-11 01:48:22
331
原创 【HM】CV03-目标检测(Object Detection)08-YOLOV2&V3
YOLO v2的题目叫做:《YOLO9000:Better,Faster,Stronger》,是17年的一篇论文。达到了当时的state-of-art的效果。为什么叫9000?当时论文训练YOLO9000,一个实时的目标检测器,可以检测超过9000种不同的目标类别。也就是支持实时检测许多目标类型。(我们说的YOLOV2与YOLO9000有些区别,在于训练上的区别)YOLO2是YOLO的升级版本,在YOLO的基础上用到了很多trick,尤其是结合了anchor box。
2025-08-11 01:47:41
284
原创 【HM】CV03-目标检测(Object Detection)07-YOLO算法
YOLO是一种新的目标检测方法。以前的目标检测方法通过重新利用分类器来执行检测。与先前的方案不同,将目标检测看作回归问题从空间上定位边界框(bounding box)并预测该框的类别概率。使用单个神经网络,在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流程仅用一个网络,所以可以直接对检测性能进行端到端的优化。优点第一YOLO速度非常快。由于我们将检测视为回归问题,所以我们不需要复杂的流程。测试时,我们在一张新图像上简单的运行我们的神经网络来预测检测结果。
2025-08-11 01:46:55
309
原创 【HM】CV03-目标检测(Object Detection)06-Faster RCNN接口介绍
backbone网络输出的single feature map上接了3×33×3大小的卷积核来实现sliding window的功能,后面接两个1×1的卷积分别用来做objectness的分类和bounding box基于anchor box的回归。与PASCAL COCO数据集相比,COCO中的图片包含了自然图片以及生活中常见的目标图片,背景比较复杂,目标数量比较多,目标尺寸更小,因此COCO数据集上的任务更难,对于检测任务来说,现在衡量一个模型好坏的标准更加倾向于使用COCO数据集上的检测结果。
2025-08-11 01:46:00
403
原创 【HM】CV03-目标检测(Object Detection)05-Faster R-CNN
SPPnet和Fast R-CNN等研究已经减少了这些检测网络的运行时间,使得区域提出计算成为一个瓶颈。在Faster R-CNN中加入一个提取边缘的神经网络,也就说找候选框的工作也交给神经网络来做了。这样,目标检测的四个基本步骤(候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架之内。在这项工作中,引入了一个区域提出网络(RPN)。优点提出RPN网络端到端网络模型缺点训练参数过大小目标检测效果不好。
2025-08-11 01:45:13
623
原创 【HM】CV03-目标检测(Object Detection)04-Fast R-CNN
Fast R-CNN的与RCNN等结构的比较RoI pooling的过程和作用Fast R-CNN的训练多任务损失、超参数、小批量采样Fast R-CNN的困难样本挖掘过程Fast R-CNN算法的效果实验对比,微调、多任务、多尺度等比较。
2025-08-11 01:44:05
391
原创 【HM】CV03-目标检测(Object Detection)03-SPPNet
针对之前R-CNN的缺点,我们来看1、每个候选区域都进行了卷积操作提取特征,计算量大速度低效。2、对于卷积网络来讲都需要输入的图像尺寸固定(比如224×224)。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度。当遇到任意尺寸的图像是,都是先将图像适应成固定尺寸,方法包括裁剪和变形。裁剪会导致信息的丢失,变形会导致位置信息的扭曲,就会影响识别的精度。来看下SPPNet的完整结构优点。
2025-08-11 01:43:20
295
原创 【HM】CV03-目标检测(Object Detection)02-R-CNN
这种方法类似一种暴力穷举的方式,会消耗大量的计算力量,并且由于窗口大小问题可能会造成效果不准确。但是提供了一种解决目标检测问题的思路微调不同层的效果: 分别是pool5,fc6和fc7经过finetuning之后的结果,由上图可以看出,pool5经过finetuning之后,mAP的提高不大,所以可以说明卷积层提取出来的特征是更具有泛化性的,而fc7经过finetuning之后的提升最大,说明finetuning主要作用于全连接层。与近期特征学习方法的比较。
2025-08-11 01:42:36
302
原创 【HM】CV03-目标检测(Object Detection)01-目标检测概述
目标了解目标检测算法分类知道目标检测的常见指标IoU了解目标定位的简单实现方式应用无目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置。例子:确定某张给定图像中是否存在给定类别(比如人、车、自行车、狗和猫)的目标实例;如果存在,就返回每个目标实例的空间位置和覆盖范围。作为图像理解和计算机视觉的基石,目标检测是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。
2025-08-11 01:41:37
196
原创 【HM】CV02-图像分类09-CNN架构
shapesizeparametersInput(32,32,3)30720(28,28,6)4704450+6Pool1(14,14,6)11760(10,10,16)16002400+16Pool2(5,5,16)4000FC3(120,1)12048000+120FC4(84,1)8410080+84(10,1)10840+10中间的特征大小变化不宜过快。
2025-08-11 01:40:29
253
原创 【HM】CV02-图像分类08-卷积神经网络(CNN)
我们来通过一个例子看一下结算结果,以及参数的计算假设我们有10 个Filter,每个Filter3 X 3 X 3(计算RGB图片),并且只有一层卷积,那么参数有多少?计算:每个Filter参数个数为:333 + 1 bias = 28个权重参数,总共28 * 10 = 280个参数,即使图片任意大小,我们这层的参数也就这么多。假设一张2002003的图片,进行刚才的FIlter,步长为1,最终为了保证最后输出的大小为200 * 200,需要设置多大的零填充。
2025-08-11 01:39:21
302
原创 【HM】CV02-图像分类07-深度学习正则化
Batch Normalization 也起到微弱的正则化效果,但是不要将 Batch Normalization 作为正则化的手段,而是当作加速学习的方式。Batch Normalization主要解决的还是反向传播过程中的梯度问题(梯度消失和爆炸)。偏差与方差的意义L2正则化与L1正则化的数学原理权重衰减droupout原理以及方法正则化的作用数据增强的作用基本的超参数以及调参技巧BN的原理以及作用。
2025-08-11 01:38:17
365
原创 【HM】CV02-图像分类06-深度学习优化算法
对整个训练集进行梯度下降法的时候,我们必须处理整个训练数据集,然后才能进行一步梯度下降,即每一步梯度下降法需要对整个训练集进行一次处理,如果训练数据集很大的时候,处理速度就会比较慢。这里开方、除法和乘法的运算都是按元素运算的。使用动量梯度下降时,通过累加过去的梯度值来减少抵达最小值路径上的波动,加速了收敛,因此在横轴方向下降得更快,从而得到图中红色或者紫色的曲线。在计算梯度时,根据不同情况梯度函数也会以指数级递增或递减,导致训练导数难度上升,梯度下降算法的步长会变得非常小,需要训练的时间将会非常长。
2025-08-11 01:37:03
993
原创 【HM】CV02-图像分类05-浅层/深层神经网络
Sigmoid函数饱和使梯度消失。sigmoid神经元有一个不好的特性,就是当神经元的激活在接近0或1处时会饱和:在这些区域,梯度几乎为0。Tanh:和sigmoid神经元一样,它也存在饱和问题,但是和sigmoid神经元不同的是,它的输出是零中心的。优点:相较于sigmoid和tanh函数,ReLU对于随机梯度下降的收敛有巨大的加速作用,这是由它的线性,非饱和的公式导致的。sigmoid和tanh神经元含有指数运算等耗费计算资源的操作,而ReLU可以简单地通过对一个矩阵进行阈值计算得到。
2025-08-10 23:24:07
838
1
原创 【HM】CV02-图像分类03-分类器及损失
现在,我们将开发一种功能更强大的图像分类方法,最终将其自然地扩展到整个神经网络和卷积神经网络。线性分类方法。这种方法来主要由两部分,一个函数将输入数据映射到一个类别分数,另一个就是损失函数来量化预测的分数与目标值之间的一致性。回到之前的CIFAR-10例子,输入训练图像的数据集50000张图片, 向量维度D = 32 x 32 x 3 = 3072像素,K大小为10个类别xi∈RD,i=1xi∈RD,i=1定义这样的函数为f:RD↦RK,f(xi,W,b)=Wxi+bf:RD↦RK
2025-08-10 23:21:49
375
原创 【HM】CV02-图像分类02-神经网络简介
目标知道神经网络的定义了解感知机与神经网络的联系了解神经网络的发展历史应用无人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN)。是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的计算模型。经典的神经网络结构包含三个层次的神经网络。分别输入层,输出层以及隐藏层。其中每层的圆圈代表一个神经元,隐藏层和输出层的神经元有输入的数据计算后输出,输入层的神经元只是输入。神经网络的特点1、每个连接都有个权值。
2025-08-10 23:20:51
859
原创 【HM】CV02-图像分类01-图像分类介绍
目标了解图像分类任务以及挑战知道最近邻分类器的特点、L1与L2距离的特点应用无图像分类数据集示例:CIFAR-10,一个流行的图像分类数据集。这个数据集由60000个32像素高和宽组成的小图像组成。每个图像都被标记为10个类之一(例如“飞机、汽车、鸟等”)。这60000个图像被分割成50000个图像的训练集和10000个图像的测试集。
2025-08-10 23:16:55
695
原创 【HM】CV01-计算机视觉简介01-计算机视觉概念
定义:计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。比如下图,做到的不仅仅是检测到图像前景中有四个人、一条街道和几辆车。除了这些基本信息,人类还能够看出图像前景中的人正在走路,其中一人赤脚,我们甚至知道他们是谁。我们可以理性地推断出图中人物没有被车撞击的危险,白色的大众汽车没有停好。人类还可以描述图中人物的穿着,不止是衣服颜色,还有材质与纹理。
2025-08-10 23:10:40
436
原创 神经网络权重初始化:正态分布、Xavier、He和 LeCun
神经网络的权重初始化在训练过程中起着至关重要的作用。合理的初始化方法能有效避免梯度消失、梯度爆炸等问题,并加速网络的收敛速度。不同的初始化方法适用于不同类型的网络结构和激活函数。常见的初始化方法包括。
2025-08-10 21:53:17
13
原创 视频多模态大模型
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning》是Google发表在CVPR 2023的一个工作,提出了对视频进行dengse caption的框架。Vid2Seq架构通过特殊的时间token增强了语言模型,使其能够在同一个输出序列中无缝地预测事件边界和文本描述。
2025-08-03 14:38:55
56
原创 鲁棒性(Robustness)、泛化能力(Generalization)
鲁棒性指的是模型在面对扰动输入、异常数据或未知噪声时,仍然能够保持性能不显著下降的能力。也就是说,模型不容易被“欺骗”或轻易失效。泛化能力是指模型在未见过的、但与训练数据同分布的测试数据上保持良好性能的能力。即训练集表现好,测试集也表现好,不是“死记硬背”,而是“真正学到了规律”。
2025-08-03 14:00:04
58
原创 Megatron-LM从头训练大语言模型:并行策略图示【Tensor并行、Pipeline并行、Data并行、Sequence并行、virtual_pipeline并行、Context并行】
节点包含的层每GPU的参数内存每GPU的激活内存节点0Stage 0层1-1212层参数/2 (TP切分)8k序列激活 (CP切分)节点1Stage 1层13-2412层参数/2 (TP切分)8k序列激活 (CP切分)节点2Stage 2层25-3612层参数/2 (TP切分)8k序列激活 (CP切分)节点3Stage 3层37-4812层参数/2 (TP切分)8k序列激活 (CP切分)负载均衡:每个节点处理相同数量的层(12层)内存优化。
2025-07-31 22:21:17
56
原创 CTC与RNN-T训练、推理阶段核心复杂度对比【CTC:O(T × V)】【RNN-T:O(T × U × V)】【RNN-T(剪枝):O(T × P × V)】【T=语音帧数;V=词表大小】
"""CTC vs RNN-T 训练推理阶段复杂度总结"""# CTC训练推理特征"训练阶段": {"前向传播": "O(T × D × V + T × S)","主要计算": "特征投影 + 一维DP","并行性": "高度并行,时间步独立","内存需求": "O(T × V + T × S)"},"推理阶段": {"贪心解码": "O(T × D × V + T)","束搜索": "O(T × D × V + T × V × B)","并行性": "完全并行,无序列依赖",
2025-07-29 06:37:04
51
原创 扩散模型:Diffusion Method与Transformer多模态架构配合详解【生成式AI的主流范式】
核心优势:成熟的技术栈:Diffusion模型已经非常成熟优秀的生成质量:在图像、视频、音频生成方面表现卓越强大的生态系统:丰富的工具和社区支持灵活的架构设计:支持多种应用场景技术特点:渐进式生成:通过多步去噪实现高质量生成强大的条件控制:支持复杂的多模态条件可扩展性:容易扩展到新的模态和任务应用价值:商业化成功:Stable Diffusion、Midjourney等成功案例广泛应用:从艺术创作到工业设计的多领域应用持续创新:不断涌现的新架构和优化方法。
2025-07-29 02:35:56
47
《Approaching (Almost) Any Machine Learning Problem》
2023-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人