hllqkbb-CSDN博客

原创 ML2025 Homework 2 使用大模型生成代码解决数据预测问题 Disease Prediction

摘要：本文介绍了一个基于LLM（大语言模型）的数据科学自动编码方案，用于疾病预测任务。该方案使用开源大模型qwen-coder-plus-latest，通过优化提示词、增加迭代次数和生成草稿数量等方法来提升预测效果。核心流程包括数据加载、预处理、模型训练和预测保存。文章特别强调禁止使用GPT-4o等闭源模型，提供了完整的API调用代码和任务执行框架，展示了如何利用开源LLM自动生成定制化机器学习解决方案。

2025-08-21 17:34:03 967

原创 ML2025 Homework 1 基于Agent系统的检索增强生成技术 Retrieval Augmented Generation with Agentic System

文章摘要：本文介绍了RAG（检索增强生成）与代理系统的基本概念，并详细说明了构建RAG系统的任务流程。RAG允许大型语言模型使用外部知识回答问题，而代理系统则通过多个LLM协作完成复杂任务。文章提供了实现RAG系统的关键代码改进，包括移除复杂模型、优化搜索功能、定义代理字典以及使用HuggingFace嵌入模型。数据集包含90个手工制作的问题，分为公开和私有两部分。由于无法提交评分，建议直接参考提示实现系统功能并通过GPT-4验证结果。

2025-08-21 12:55:03 640

原创手写MNIST数字识别底层实现

这篇文章从零开始实现了一个MNIST手写数字识别的神经网络模型。首先介绍了分类问题中使用的softmax函数及其数值稳定性改进方法，然后详细讲解了神经网络的结构设计，包括卷积层、ReLU激活函数、池化层和全连接层的作用原理。文章提供了完整的代码实现，包括数据预处理、网络结构定义和可视化展示MNIST数据集。通过实例说明了如何构建一个包含两层卷积和全连接层的CNN模型，并解释了各层参数设置的原因。最后展示了网络前向传播的实现方式。

2025-08-20 15:20:32 1309

原创从 SGD 到梯度累积：Epoch、Batch、Step 的关系全解析

Epoch、Batch 和 Step 之间的关系以及梯度累积

2025-08-19 23:28:34 893

原创手把手教你RAG：分词器、文档预处理、向量数据库搭建与问答应用开发

RAG（检索增强生成）技术通过结合检索和生成两阶段提升AI回答质量。首先从知识库检索相关内容，再结合问题生成回答，避免模型幻觉并提高准确性。技术优势包括动态知识更新、回答可验证和场景灵活适配。实现过程分为：1）用嵌入模型（如BERT）将问题向量化并匹配相关文档；2）将检索内容输入生成模型（如GPT）生成最终回答。文章还提供了Python代码示例，展示如何构建向量数据库、加载嵌入模型（如Chuxin-Embedding）并实现文档检索功能，适用于知识问答、客服等场景。

2025-08-19 20:44:56 1202

原创 3行代码部署一个鉴黄服务

【代码】3行代码部署一个鉴黄服务。

2025-08-19 20:10:31 238

原创三维重建-动手学计算机视觉19（完结）

本文介绍了基于对极几何的三维重建方法，重点阐述了从非平行双目图像中恢复场景三维信息的原理与实现。主要内容包括：1）对极几何的基本概念，包括极平面、极线和极点的定义；2）通过特征点匹配和RANSAC算法计算基础矩阵和本质矩阵；3）利用三角测量技术从匹配点对重建三维坐标；4）实际应用中的极线约束验证和三维点云生成。文章还展示了使用OpenCV实现的完整代码流程，包括特征提取、矩阵计算、三角测量和结果可视化。该方法为计算机视觉中的三维重建提供了基础解决方案，尽管重建结果较为稀疏，但为后续更复杂的重建任务奠定了基础

2025-08-17 22:46:49 892

原创平行双目视觉-动手学计算机视觉18

平行双目照相机通过模拟人类双眼视觉系统实现深度感知。该系统由两台水平放置、光轴平行的相机组成，基线距离是关键参数。深度计算的核心原理是视差（同一空间点在左右图像中的水平像素差），视差与物体距离成反比。计算过程包括特征匹配（常用SAD/SSD算法）和全局优化，其中块匹配尺寸会影响结果精度与计算效率：小尺寸保留细节但噪声多，大尺寸更平滑但丢失细节。实验表明，SSD算法比SAD保留更多细节但耗时更长。最终生成的视差图可转换为深度图，亮度反映物体远近，为三维场景重建提供基础。

2025-08-17 22:29:18 892

原创运动场和光流-动手学计算机视觉17

本文介绍了计算机视觉中的光流估计技术，重点阐述了运动场与光流的概念差异及其计算方法。主要内容包括：1) 运动场表示三维运动在二维平面的投影，而光流是基于图像亮度变化的运动近似；2) Lucas-Kanade光流法通过亮度恒定、微小移动和空间一致性假设求解光流方程，并介绍了迭代法和图像金字塔等改进方法；3) 通过代码示例演示了Lucas-Kanade算法的实现过程，包括图像预处理、梯度计算和光流求解；4) 对比分析了特征点法和直接法的优缺点，并展示了在真实视频中应用OpenCV光流函数的效果。研究结果表明，光

2025-08-17 20:26:32 1059

原创 python的实用工具

本文介绍了Python中几个常用实用工具模块：1. pprint模块提供美观的数据结构打印功能；2. pickle模块实现Python对象序列化；3. json模块处理JSON数据格式转换；4. shutil模块提供高级文件操作；5. logging模块实现日志记录功能；6. requests模块简化HTTP请求操作。这些模块能有效提升Python开发效率，简化数据处理、文件操作、网络请求等常见任务。

2025-08-17 20:01:00 1013

原创照相机标定-动手学计算机视觉16

本章主要介绍了照相机成像的基本原理，以及照相机模型中重要的参数：内外参数和畸变参数。我们还学习了如何使用标定板对照相机进行标定，并通过代码实现了照相机的标定。经过标定的照相机，犹如一座连接三维世界与二维图像平面的桥梁。它让我们能够通过图像来反向推算三维空间的信息，为后续的计算机视觉应用提供重要的基础。下一节，我们将学习光流与运动场，探究空间运动与图像像素变化之间的关系。

2025-08-17 18:54:31 906

原创动作识别-动手学计算机视觉15

本章介绍了人体动作识别的基本原理、常用的数据集和评测指标，并详细分析了一个经典的动作识别模型一C3D。C3D模型利用三维卷积网络来提取视频数据中的时空特征，从而实现高精确度的动作识别。最后，我们展示了如何在UCF101数据集上训练和验证C3D模型，取得了不错的效果。回顾我们的动手学旅程，从图像的基础处理到图像及视频的语义理解，我们都在不停地贴近真实世界，而真实世界是三维的，因此接下来我们将介绍场景重建，探索计算机视觉算法在三维世界中的应用。

2025-08-17 16:00:34 722

原创人体姿态估计-动手学计算机视觉14

摘要：人体姿态估计是计算机视觉的重要任务，用于识别人体动作和姿势，在虚拟现实、人机交互等领域有广泛应用。本文介绍了二维姿态估计的基本概念，常用数据集（LSP、FLIC、MPII、MSCOCO）及评测指标（PCK、mAP）。重点阐述了DeepPose模型，它通过级联回归网络实现高精度关节点预测，并给出了简化版实现方案。实验在MSCOCO数据集上进行，验证了模型有效性。该技术为动作捕捉、运动分析等应用奠定了基础。

2025-08-17 00:14:08 1124

原创实例分割-动手学计算机视觉13

本文介绍了实例分割的基本概念及其经典方法Mask R-CNN。实例分割结合了目标检测和语义分割，不仅能区分不同类别，还能识别同一类别下的不同实例。Mask R-CNN在Faster R-CNN基础上引入特征金字塔网络(FPN)和ROI对齐(ROIAlign)技术，并增加掩模预测分支，显著提升了分割精度。文章详细阐述了FPN的多尺度特征融合机制和ROIAlign避免坐标取整误差的优势，并提供了基于PyTorch的FPN实现代码。最后演示了使用预训练Mask R-CNN模型进行实例分割的完整流程，包括环境配置、

2025-08-16 21:45:24 983

原创目标检测-动手学计算机视觉12

摘要：目标检测是计算机视觉的核心任务，旨在识别图像中目标的类别并定位其位置（通过包围盒表示）。深度学习推动了目标检测的发展，R-CNN系列模型（R-CNN、Fast R-CNN、Faster R-CNN）是关键里程碑。R-CNN通过候选区域提取和CNN特征分类实现检测；Fast R-CNN引入ROI池化，共享特征计算提升效率；Faster R-CNN结合区域提议网络（RPN），实现端到端训练，显著加速检测。常用数据集（PASCAL VOC、MS COCO）和指标mAP（基于交并比IoU）评估模型性能。目标

2025-08-14 11:31:41 1038

原创语义分割-动手学计算机视觉11

摘要：语义分割是计算机视觉中的像素级分类任务，为图像每个像素赋予语义标签。本文介绍了全卷积网络(FCN)在语义分割中的应用，通过替换全连接层为卷积层实现端到端预测，并利用上采样和跳跃连接解决特征图分辨率问题。实验基于VOC2012数据集，使用VGG16作为主干网络构建FCN-8s模型，通过交叉熵损失函数和Adam优化器进行训练。结果显示FCN能有效实现语义分割，预测结果与真实标签较为接近。该方法在自动驾驶、医学影像等领域具有应用价值。

2025-08-14 01:01:47 1055

原创图像分类-动手学计算机视觉10

介绍了视觉识别中最基本的问题之一图像分类。本章先后讲解了基于手工设计图像表正（视觉词袋模型）的图像分类算法和基于深度卷积神经网络的图像分类算法

2025-08-13 20:16:20 824

原创 Ubuntu22.04轻松安装Qt与OpenCV库

通过以上步骤，您可以在Ubuntu上轻松安装Qt和OpenCV库，并创建跨平台的图像处理应用程序。Qt和OpenCV的结合为开发者提供了强大的工具，可以构建各种图像处理应用程序。

2025-08-13 15:40:40 558

原创图像分割-动手学计算机视觉9

本文介绍了无监督图像分割技术，重点探讨了两种经典算法：基于k均值的图像分割和基于归一化割的图切割算法。k均值方法通过迭代优化将像素聚类为指定数量的区域，改进版通过加入坐标信息提升了分割连续性。图切割算法则将分割转化为最小割问题，通过能量函数优化实现前景背景分离。文章还展示了使用SAM（Segment Anything Model）进行高级分割的实践，包括自动分割和交互式点击选择目标两种方式。实验结果表明，SAM在分割精度和用户体验上显著优于传统方法，特别是其交互式版本能精确提取指定目标（如猫）。这些方法为计

2025-08-13 14:27:03 1256

原创图片拼接-动手学计算机视觉8

图片拼接（image stitching）就是将统一场景的不同拍摄出的图片拼接到一起，如图所示就是拼接全景图，是图片拼接的应用之一，手机拍照都有全景拍摄功能仔细观察全景图，寻找它们相似性，图8-2的全景图可以通过缩放，旋转，射影等操作进行拼接而成，我们首先介绍几个常用的图像变换RANSAC（Random Sample Consensus）是一种鲁棒的模型拟合算法，常用于处理包含大量噪声或异常值的数据。

2025-08-12 23:37:25 1084

原创解密SIFT算法：从原理到实战-动手学计算机视觉7

对于第一点, 只要精确极值点在任意方向$(x, y,\sigma)$偏离找到的极值点某个阈值则剔除该极值点, 通常这个阈值在论文中取0.5;分别做方差为$\sigma_0,k\sigma_0$的高斯模糊得到的, 在这种情况下, 我们是视初始图像的空间尺度坐标为0, 但尺度空间的建立不能从尺度为0开始(尺度坐标是成比例增长, 起始不能为0, 另一种解释是在尺度空间理论中视尺度坐标为0时图像是无限精细不可获得), 故在Lowe的论文中假设我们获得的初始图像是已经经过了方差为0.5的高斯模糊处理.

2025-08-11 10:09:59 1234

原创角点检测-动手学计算机视觉6

图像匹配常通过检测局部特征点实现，其中角点特征因其重复性、显著性、紧性和鲁棒性成为重要特征。Harris角点检测算法通过分析窗口移动时像素值变化规律，利用结构张量计算和响应函数定位角点。该算法对旋转和平移具有不变性，但对尺度变化敏感。通过非极大值抑制和阈值处理可有效提取角点，为后续图像匹配和拼接提供基础特征。

2025-08-11 08:10:41 1070

原创解决csdn 图片上传失败，请重试问题

博客图片上传失败的解决方法：1）清除浏览器缓存和Cookie；2）测试图片服务器连通性（ping/nslookup）；3）修改hosts文件添加CSDN图片服务器解析记录；4）刷新DNS缓存；5）检查浏览器插件干扰；6）重启电脑；7）如仍失败，提交工单并提供F12控制台截图和图片MD5值。通过这七个步骤可解决大部分图片上传问题。

2025-08-11 07:57:44 380

原创边缘检测原理和实现 Sobel和Canny边缘检测算法-动手学计算机视觉5

本文系统介绍了图像边缘检测的基本原理和常用方法。边缘检测通过计算图像梯度或二阶导数来识别亮度突变区域，常用算子包括一阶微分的Sobel、Prewitt算子和二阶微分的Laplacian算子。文章详细推导了各算子的数学公式，并重点分析了Canny算法的多步骤实现过程，包括高斯滤波、梯度计算、非极大值抑制和双阈值检测。通过Python代码示例展示了Sobel和Canny算子的实际应用效果，比较了不同参数对检测结果的影响。最后总结指出，Sobel算子计算简单但精度有限，Canny算法通过多步骤处理能获得更优的边缘

2025-08-10 22:05:26 953

原创模板匹配介绍、原理与实现-动手学深度学习4

摘要：模板匹配是一种基于像素比较的计算机视觉技术，用于在大图像中定位与模板相似的区域。其核心原理是通过滑动模板计算相似度（如互相关），找到最佳匹配位置。Python中可通过OpenCV实现，常用方法包括归一化平方差（TM_SQDIFF_NORMED）和归一化互相关（TM_CCOEFF_NORMED）。该技术简单高效，但对光照、旋转和尺度变化敏感。改进方法包括多目标匹配结合非极大值抑制（NMS）消除重叠框，适用于工业检测等固定场景。尽管存在局限性，模板匹配在特定条件下仍具实用价值。

2025-08-10 20:56:22 424

原创图像滤波和图像锐化原理和代码-动手学计算机视觉3.1

本文介绍了图像滤波的基础概念、典型噪声类型和常用滤波技术。图像滤波通过修改频谱来改变图像特性，分为去噪（抑制高频）和锐化（增强高频）两种核心作用。文章详细分析了椒盐噪声和高斯噪声的特征及成因，并提供了Python实现代码。在滤波方法上，重点讲解了线性滤波器（均值、高斯滤波）和非线性滤波器（中值、双边滤波）的原理及应用场景，通过代码演示了它们在图像处理中的实际效果。最后，文章介绍了四种图像锐化技术（拉普拉斯、Sobel、反锐化掩模和自定义核），对比了各自特点和使用方法，为图像处理任务提供了全面的技术参考。

2025-08-10 16:51:37 623

原创二维卷积原理和代码-动手学计算机视觉2

二维卷积是图像处理的核心操作，通过滑动窗口对图像局部区域与卷积核进行乘加运算，生成新特征图。文章详细介绍了卷积原理（包括输入输出尺寸计算）、与相关运算的区别，以及模糊、边缘检测等常见应用场景。通过Python代码演示了单位卷积核和均值滤波的实现效果，展示了不同卷积核对图像处理的作用差异。该技术是计算机视觉和深度学习的基础，广泛应用于特征提取、图像增强等领域。

2025-08-10 15:56:32 398

原创一维卷积公式和代码-动手学计算机视觉1

摘要：本文介绍了一维卷积的数学原理和实现方法。卷积通过平移、翻转、相乘和累加运算处理信号，具有交换律、结合律和分配律特性。在离散信号处理中，为避免输出信号长度缩减，需进行零填充操作。文章详细说明了零填充的规则（填充数小于卷积核长度）并给出了Python实现代码，包括卷积计算和可视化功能。通过实例展示了不同卷积核（如单位冲激信号和方波）对三角波信号的不同处理效果，验证了卷积在信号平滑等方面的应用特性。

2025-08-10 15:13:43 475

原创 ML2023Spring-hw4 Bossline 0.95125

这篇代码实现了一个基于Conformer架构的说话人分类系统，主要包含以下内容：数据处理部分：使用VoxCeleb2数据集中的600个说话人预处理音频为梅尔频谱图构建数据加载器并实现分段处理模型架构：实现Conformer模块，包含：位置编码、相对多头注意力、前馈网络等组件支持自注意力池化(Self-Attention Pooling)和AMSoftmax损失函数采用学习率预热和余弦退火调度训练流程：支持从预训练模型加载使用AdamW优化器每2000步进行验证并保存最佳模型该系统可

2025-08-09 17:44:19 985

原创 ML2023Spring-hw3 Bossline 0.95733

本文介绍了一个基于PyTorch的食物图像分类模型实现。代码首先检查GPU可用性并设置随机种子确保可复现性。使用Swin Transformer作为基础模型，通过自定义数据增强（包括随机裁剪、翻转、颜色抖动等）处理128x128大小的食物图像。模型训练采用交叉熵损失函数和Adam优化器，包含8个epoch，并实现了早停机制。实验在训练集上验证准确率达到0.85，最终在测试集上生成预测结果并保存为CSV文件。整个过程展示了深度学习图像分类任务的完整流程，包括数据预处理、模型构建、训练优化和预测输出等关键步骤。

2025-08-09 12:38:40 175

2501_92532948的博客