自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 ML2025 Homework 2 使用大模型生成代码解决数据预测问题 Disease Prediction

摘要:本文介绍了一个基于LLM(大语言模型)的数据科学自动编码方案,用于疾病预测任务。该方案使用开源大模型qwen-coder-plus-latest,通过优化提示词、增加迭代次数和生成草稿数量等方法来提升预测效果。核心流程包括数据加载、预处理、模型训练和预测保存。文章特别强调禁止使用GPT-4o等闭源模型,提供了完整的API调用代码和任务执行框架,展示了如何利用开源LLM自动生成定制化机器学习解决方案。

2025-08-21 17:34:03 967

原创 ML2025 Homework 1 基于Agent系统的检索增强生成技术 Retrieval Augmented Generation with Agentic System

文章摘要:本文介绍了RAG(检索增强生成)与代理系统的基本概念,并详细说明了构建RAG系统的任务流程。RAG允许大型语言模型使用外部知识回答问题,而代理系统则通过多个LLM协作完成复杂任务。文章提供了实现RAG系统的关键代码改进,包括移除复杂模型、优化搜索功能、定义代理字典以及使用HuggingFace嵌入模型。数据集包含90个手工制作的问题,分为公开和私有两部分。由于无法提交评分,建议直接参考提示实现系统功能并通过GPT-4验证结果。

2025-08-21 12:55:03 640

原创 手写MNIST数字识别 底层实现

这篇文章从零开始实现了一个MNIST手写数字识别的神经网络模型。首先介绍了分类问题中使用的softmax函数及其数值稳定性改进方法,然后详细讲解了神经网络的结构设计,包括卷积层、ReLU激活函数、池化层和全连接层的作用原理。文章提供了完整的代码实现,包括数据预处理、网络结构定义和可视化展示MNIST数据集。通过实例说明了如何构建一个包含两层卷积和全连接层的CNN模型,并解释了各层参数设置的原因。最后展示了网络前向传播的实现方式。

2025-08-20 15:20:32 1309

原创 从 SGD 到梯度累积:Epoch、Batch、Step 的关系全解析

Epoch、Batch 和 Step 之间的关系以及梯度累积

2025-08-19 23:28:34 893

原创 手把手教你RAG:分词器、文档预处理、向量数据库搭建与问答应用开发

RAG(检索增强生成)技术通过结合检索和生成两阶段提升AI回答质量。首先从知识库检索相关内容,再结合问题生成回答,避免模型幻觉并提高准确性。技术优势包括动态知识更新、回答可验证和场景灵活适配。实现过程分为:1)用嵌入模型(如BERT)将问题向量化并匹配相关文档;2)将检索内容输入生成模型(如GPT)生成最终回答。文章还提供了Python代码示例,展示如何构建向量数据库、加载嵌入模型(如Chuxin-Embedding)并实现文档检索功能,适用于知识问答、客服等场景。

2025-08-19 20:44:56 1202

原创 3行代码部署一个鉴黄服务

【代码】3行代码部署一个鉴黄服务。

2025-08-19 20:10:31 238

原创 三维重建-动手学计算机视觉19(完结)

本文介绍了基于对极几何的三维重建方法,重点阐述了从非平行双目图像中恢复场景三维信息的原理与实现。主要内容包括:1)对极几何的基本概念,包括极平面、极线和极点的定义;2)通过特征点匹配和RANSAC算法计算基础矩阵和本质矩阵;3)利用三角测量技术从匹配点对重建三维坐标;4)实际应用中的极线约束验证和三维点云生成。文章还展示了使用OpenCV实现的完整代码流程,包括特征提取、矩阵计算、三角测量和结果可视化。该方法为计算机视觉中的三维重建提供了基础解决方案,尽管重建结果较为稀疏,但为后续更复杂的重建任务奠定了基础

2025-08-17 22:46:49 892

原创 平行双目视觉-动手学计算机视觉18

平行双目照相机通过模拟人类双眼视觉系统实现深度感知。该系统由两台水平放置、光轴平行的相机组成,基线距离是关键参数。深度计算的核心原理是视差(同一空间点在左右图像中的水平像素差),视差与物体距离成反比。计算过程包括特征匹配(常用SAD/SSD算法)和全局优化,其中块匹配尺寸会影响结果精度与计算效率:小尺寸保留细节但噪声多,大尺寸更平滑但丢失细节。实验表明,SSD算法比SAD保留更多细节但耗时更长。最终生成的视差图可转换为深度图,亮度反映物体远近,为三维场景重建提供基础。

2025-08-17 22:29:18 892

原创 运动场和光流-动手学计算机视觉17

本文介绍了计算机视觉中的光流估计技术,重点阐述了运动场与光流的概念差异及其计算方法。主要内容包括:1) 运动场表示三维运动在二维平面的投影,而光流是基于图像亮度变化的运动近似;2) Lucas-Kanade光流法通过亮度恒定、微小移动和空间一致性假设求解光流方程,并介绍了迭代法和图像金字塔等改进方法;3) 通过代码示例演示了Lucas-Kanade算法的实现过程,包括图像预处理、梯度计算和光流求解;4) 对比分析了特征点法和直接法的优缺点,并展示了在真实视频中应用OpenCV光流函数的效果。研究结果表明,光

2025-08-17 20:26:32 1059

原创 python的实用工具

本文介绍了Python中几个常用实用工具模块:1. pprint模块提供美观的数据结构打印功能;2. pickle模块实现Python对象序列化;3. json模块处理JSON数据格式转换;4. shutil模块提供高级文件操作;5. logging模块实现日志记录功能;6. requests模块简化HTTP请求操作。这些模块能有效提升Python开发效率,简化数据处理、文件操作、网络请求等常见任务。

2025-08-17 20:01:00 1013

原创 照相机标定-动手学计算机视觉16

本章主要介绍了照相机成像的基本原理,以及照相机模型中重要的参数:内外参数和畸变参数。我们还学习了如何使用标定板对照相机进行标定,并通过代码实现了照相机的标定。经过标定的照相机,犹如一座连接三维世界与二维图像平面的桥梁。它让我们能够通过图像来反向推算三维空间的信息,为后续的计算机视觉应用提供重要的基础。下一节,我们将学习光流与运动场,探究空间运动与图像像素变化之间的关系。

2025-08-17 18:54:31 906

原创 动作识别-动手学计算机视觉15

本章介绍了人体动作识别的基本原理、常用的数据集和评测指标,并详细分析了一个经典的动作识别模型一C3D。C3D模型利用三维卷积网络来提取视频数据中的时空特征,从而实现高精确度的动作识别。最后,我们展示了如何在UCF101数据集上训练和验证C3D模型,取得了不错的效果。回顾我们的动手学旅程,从图像的基础处理到图像及视频的语义理解,我们都在不停地贴近真实世界,而真实世界是三维的,因此接下来我们将介绍场景重建,探索计算机视觉算法在三维世界中的应用。

2025-08-17 16:00:34 722

原创 人体姿态估计-动手学计算机视觉14

摘要:人体姿态估计是计算机视觉的重要任务,用于识别人体动作和姿势,在虚拟现实、人机交互等领域有广泛应用。本文介绍了二维姿态估计的基本概念,常用数据集(LSP、FLIC、MPII、MSCOCO)及评测指标(PCK、mAP)。重点阐述了DeepPose模型,它通过级联回归网络实现高精度关节点预测,并给出了简化版实现方案。实验在MSCOCO数据集上进行,验证了模型有效性。该技术为动作捕捉、运动分析等应用奠定了基础。

2025-08-17 00:14:08 1124

原创 实例分割-动手学计算机视觉13

本文介绍了实例分割的基本概念及其经典方法Mask R-CNN。实例分割结合了目标检测和语义分割,不仅能区分不同类别,还能识别同一类别下的不同实例。Mask R-CNN在Faster R-CNN基础上引入特征金字塔网络(FPN)和ROI对齐(ROIAlign)技术,并增加掩模预测分支,显著提升了分割精度。文章详细阐述了FPN的多尺度特征融合机制和ROIAlign避免坐标取整误差的优势,并提供了基于PyTorch的FPN实现代码。最后演示了使用预训练Mask R-CNN模型进行实例分割的完整流程,包括环境配置、

2025-08-16 21:45:24 983

原创 目标检测-动手学计算机视觉12

摘要: 目标检测是计算机视觉的核心任务,旨在识别图像中目标的类别并定位其位置(通过包围盒表示)。深度学习推动了目标检测的发展,R-CNN系列模型(R-CNN、Fast R-CNN、Faster R-CNN)是关键里程碑。R-CNN通过候选区域提取和CNN特征分类实现检测;Fast R-CNN引入ROI池化,共享特征计算提升效率;Faster R-CNN结合区域提议网络(RPN),实现端到端训练,显著加速检测。常用数据集(PASCAL VOC、MS COCO)和指标mAP(基于交并比IoU)评估模型性能。目标

2025-08-14 11:31:41 1038

原创 语义分割-动手学计算机视觉11

摘要:语义分割是计算机视觉中的像素级分类任务,为图像每个像素赋予语义标签。本文介绍了全卷积网络(FCN)在语义分割中的应用,通过替换全连接层为卷积层实现端到端预测,并利用上采样和跳跃连接解决特征图分辨率问题。实验基于VOC2012数据集,使用VGG16作为主干网络构建FCN-8s模型,通过交叉熵损失函数和Adam优化器进行训练。结果显示FCN能有效实现语义分割,预测结果与真实标签较为接近。该方法在自动驾驶、医学影像等领域具有应用价值。

2025-08-14 01:01:47 1055

原创 图像分类-动手学计算机视觉10

介绍了视觉识别中最基本的问题之一图像分类。本章先后讲解了基于手工设计图像表正(视觉词袋模型)的图像分类算法和基于深度卷积神经网络的图像分类算法

2025-08-13 20:16:20 824

原创 Ubuntu22.04轻松安装Qt与OpenCV库

通过以上步骤,您可以在Ubuntu上轻松安装Qt和OpenCV库,并创建跨平台的图像处理应用程序。Qt和OpenCV的结合为开发者提供了强大的工具,可以构建各种图像处理应用程序。

2025-08-13 15:40:40 558

原创 图像分割-动手学计算机视觉9

本文介绍了无监督图像分割技术,重点探讨了两种经典算法:基于k均值的图像分割和基于归一化割的图切割算法。k均值方法通过迭代优化将像素聚类为指定数量的区域,改进版通过加入坐标信息提升了分割连续性。图切割算法则将分割转化为最小割问题,通过能量函数优化实现前景背景分离。文章还展示了使用SAM(Segment Anything Model)进行高级分割的实践,包括自动分割和交互式点击选择目标两种方式。实验结果表明,SAM在分割精度和用户体验上显著优于传统方法,特别是其交互式版本能精确提取指定目标(如猫)。这些方法为计

2025-08-13 14:27:03 1256

原创 图片拼接-动手学计算机视觉8

图片拼接(image stitching)就是将统一场景的不同拍摄出的图片拼接到一起,如图所示就是拼接全景图,是图片拼接的应用之一,手机拍照都有全景拍摄功能仔细观察全景图,寻找它们相似性,图8-2的全景图可以通过缩放,旋转,射影等操作进行拼接而成,我们首先介绍几个常用的图像变换RANSAC(Random Sample Consensus)是一种鲁棒的模型拟合算法,常用于处理包含大量噪声或异常值的数据。

2025-08-12 23:37:25 1084

原创 解密SIFT算法:从原理到实战-动手学计算机视觉7

对于第一点, 只要精确极值点在任意方向$(x, y,\sigma)$偏离找到的极值点某个阈值则剔除该极值点, 通常这个阈值在论文中取0.5;分别做方差为$\sigma_0,k\sigma_0$的高斯模糊得到的, 在这种情况下, 我们是视初始图像的空间尺度坐标为0, 但尺度空间的建立不能从尺度为0开始(尺度坐标是成比例增长, 起始不能为0, 另一种解释是在尺度空间理论中视尺度坐标为0时图像是无限精细不可获得), 故在Lowe的论文中假设我们获得的初始图像是已经经过了方差为0.5的高斯模糊处理.

2025-08-11 10:09:59 1234

原创 角点检测-动手学计算机视觉6

图像匹配常通过检测局部特征点实现,其中角点特征因其重复性、显著性、紧性和鲁棒性成为重要特征。Harris角点检测算法通过分析窗口移动时像素值变化规律,利用结构张量计算和响应函数定位角点。该算法对旋转和平移具有不变性,但对尺度变化敏感。通过非极大值抑制和阈值处理可有效提取角点,为后续图像匹配和拼接提供基础特征。

2025-08-11 08:10:41 1070

原创 解决csdn 图片上传失败,请重试问题

博客图片上传失败的解决方法:1)清除浏览器缓存和Cookie;2)测试图片服务器连通性(ping/nslookup);3)修改hosts文件添加CSDN图片服务器解析记录;4)刷新DNS缓存;5)检查浏览器插件干扰;6)重启电脑;7)如仍失败,提交工单并提供F12控制台截图和图片MD5值。通过这七个步骤可解决大部分图片上传问题。

2025-08-11 07:57:44 380

原创 边缘检测原理和实现 Sobel和Canny边缘检测算法-动手学计算机视觉5

本文系统介绍了图像边缘检测的基本原理和常用方法。边缘检测通过计算图像梯度或二阶导数来识别亮度突变区域,常用算子包括一阶微分的Sobel、Prewitt算子和二阶微分的Laplacian算子。文章详细推导了各算子的数学公式,并重点分析了Canny算法的多步骤实现过程,包括高斯滤波、梯度计算、非极大值抑制和双阈值检测。通过Python代码示例展示了Sobel和Canny算子的实际应用效果,比较了不同参数对检测结果的影响。最后总结指出,Sobel算子计算简单但精度有限,Canny算法通过多步骤处理能获得更优的边缘

2025-08-10 22:05:26 953

原创 模板匹配介绍、原理与实现-动手学深度学习4

摘要: 模板匹配是一种基于像素比较的计算机视觉技术,用于在大图像中定位与模板相似的区域。其核心原理是通过滑动模板计算相似度(如互相关),找到最佳匹配位置。Python中可通过OpenCV实现,常用方法包括归一化平方差(TM_SQDIFF_NORMED)和归一化互相关(TM_CCOEFF_NORMED)。该技术简单高效,但对光照、旋转和尺度变化敏感。改进方法包括多目标匹配结合非极大值抑制(NMS)消除重叠框,适用于工业检测等固定场景。尽管存在局限性,模板匹配在特定条件下仍具实用价值。

2025-08-10 20:56:22 424

原创 图像滤波和图像锐化原理和代码-动手学计算机视觉3.1

本文介绍了图像滤波的基础概念、典型噪声类型和常用滤波技术。图像滤波通过修改频谱来改变图像特性,分为去噪(抑制高频)和锐化(增强高频)两种核心作用。文章详细分析了椒盐噪声和高斯噪声的特征及成因,并提供了Python实现代码。在滤波方法上,重点讲解了线性滤波器(均值、高斯滤波)和非线性滤波器(中值、双边滤波)的原理及应用场景,通过代码演示了它们在图像处理中的实际效果。最后,文章介绍了四种图像锐化技术(拉普拉斯、Sobel、反锐化掩模和自定义核),对比了各自特点和使用方法,为图像处理任务提供了全面的技术参考。

2025-08-10 16:51:37 623

原创 二维卷积原理和代码-动手学计算机视觉2

二维卷积是图像处理的核心操作,通过滑动窗口对图像局部区域与卷积核进行乘加运算,生成新特征图。文章详细介绍了卷积原理(包括输入输出尺寸计算)、与相关运算的区别,以及模糊、边缘检测等常见应用场景。通过Python代码演示了单位卷积核和均值滤波的实现效果,展示了不同卷积核对图像处理的作用差异。该技术是计算机视觉和深度学习的基础,广泛应用于特征提取、图像增强等领域。

2025-08-10 15:56:32 398

原创 一维卷积公式和代码-动手学计算机视觉1

摘要:本文介绍了一维卷积的数学原理和实现方法。卷积通过平移、翻转、相乘和累加运算处理信号,具有交换律、结合律和分配律特性。在离散信号处理中,为避免输出信号长度缩减,需进行零填充操作。文章详细说明了零填充的规则(填充数小于卷积核长度)并给出了Python实现代码,包括卷积计算和可视化功能。通过实例展示了不同卷积核(如单位冲激信号和方波)对三角波信号的不同处理效果,验证了卷积在信号平滑等方面的应用特性。

2025-08-10 15:13:43 475

原创 ML2023Spring-hw4 Bossline 0.95125

这篇代码实现了一个基于Conformer架构的说话人分类系统,主要包含以下内容: 数据处理部分: 使用VoxCeleb2数据集中的600个说话人 预处理音频为梅尔频谱图 构建数据加载器并实现分段处理 模型架构: 实现Conformer模块,包含:位置编码、相对多头注意力、前馈网络等组件 支持自注意力池化(Self-Attention Pooling)和AMSoftmax损失函数 采用学习率预热和余弦退火调度 训练流程: 支持从预训练模型加载 使用AdamW优化器 每2000步进行验证并保存最佳模型 该系统可

2025-08-09 17:44:19 985

原创 ML2023Spring-hw3 Bossline 0.95733

本文介绍了一个基于PyTorch的食物图像分类模型实现。代码首先检查GPU可用性并设置随机种子确保可复现性。使用Swin Transformer作为基础模型,通过自定义数据增强(包括随机裁剪、翻转、颜色抖动等)处理128x128大小的食物图像。模型训练采用交叉熵损失函数和Adam优化器,包含8个epoch,并实现了早停机制。实验在训练集上验证准确率达到0.85,最终在测试集上生成预测结果并保存为CSV文件。整个过程展示了深度学习图像分类任务的完整流程,包括数据预处理、模型构建、训练优化和预测输出等关键步骤。

2025-08-09 12:38:40 175

原创 ML2023Spring-hw2 Bossline 0.83448

该作业实现了一个基于深度神经网络的音素分类任务。主要步骤包括:1) 数据预处理,使用concat_feat函数拼接相邻帧的MFCC特征;2) 构建包含批量归一化和dropout的DNN模型,输入维度819,6个隐藏层(每层512维);3) 训练过程采用Adam优化器,学习率1e-3,batch size 512,共15个epoch;4) 在验证集上达到73.59%的准确率;5) 最终对测试集进行预测并生成CSV提交文件。实验还探讨了模型参数调整方法,通过计算总参数量来平衡网络深度和宽度。

2025-08-09 12:28:44 842

原创 ML2023Spring-hw1 Bossline 0.82080

该代码实现了一个基于PyTorch的COVID-19预测模型。主要步骤包括:1)数据预处理,包括特征选择和归一化;2)构建包含多层全连接网络和GELU激活函数的神经网络模型;3)使用Adam优化器和MSE损失函数进行训练;4)实现早停机制防止过拟合;5)对测试集进行预测并保存结果。代码采用了多种优化技巧,如特征选择、归一化处理、学习率调整等,并支持GPU加速训练。最终输出预测结果到CSV文件,适用于医疗领域的COVID-19阳性率预测任务。

2025-08-09 12:15:44 306

原创 Swin Transformer实现catvsdog猫狗分类99.5%准确度

后面采用swin_T实现99.5%的准确度。进行图像增强后的img。

2025-08-05 18:23:17 514

原创 解决ultralytics不优先使用本地ultralytics的包而使用pip里面的包的问题

【代码】解决ultralytics不优先使用本地ultralytics的包而使用pip里面的包的问题。

2025-08-01 22:23:59 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除