
PyTorch深度学习与应用
文章平均质量分 82
分享人工智能、机器学习等方面的开发知识
夏天又到了
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【图书介绍】《PyTorch 2.0深度学习从零开始学》
本书共分15章,内容包括PyTorch概述、开发环境搭建、基于PyTorch的MNIST分类实战、深度学习理论基础、MNIST分类实战、数据处理与模型可视化、基于PyTorch卷积层的分类实战、PyTorch数据处理与模型可视化、实战ResNet卷积网络模型、有趣的Word Embedding、基于循环神经网络的中文情感分类实战、自然语言处理的编码器、站在巨人肩膀上的预训练模型BERT、自然语言处理的解码器、基于PyTorch的强化学习实战、基于MFCC的语音唤醒实战、基于PyTorch的人脸识别实战。原创 2023-08-29 11:14:34 · 858 阅读 · 0 评论 -
【图书推荐】几本人工智能实用性图书
《OpenCV计算机视觉开发实践:基于Python》【摘要 书评 试读】- 京东图书《PyTorch深度学习与计算机视觉实践(人工智能技术丛书)》(王晓华)【摘要 书评 试读】- 京东图书《图神经网络基础、模型与应用实战(人工智能技术丛书) deepseek教程》(兰伟,叶进,朱晓姝)【摘要 书评 试读】- 京东图书《ChatGLM3大模型本地化部署、应用开发与微调deepseek教程》(王晓华)【摘要 书评 试读】- 京东图书《深入探索Mamba模型架构与应用(人工智能技术丛书)》(王晓华)【摘要 书评原创 2025-05-15 15:10:12 · 512 阅读 · 0 评论 -
音频特征工具Librosa包的使用
要使用深度学习与语音特征进行抽取,首先需要准备能够对语音特征进行解析的工具。Librosa是一个用于音频、音乐分析与处理的Python工具包,常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大。Librosa提供了多种音频读取和写入的方法,支持多种音频格式的读取和写入,如WAV、FLAC、MP3等。Librosa提供了多种音频特征提取的方法,如MFCC、Chromagram等。此外,Librosa还提供了多种音频可视化的方法,如绘制声谱图、绘制频谱图等。原创 2025-05-13 09:51:07 · 1583 阅读 · 0 评论 -
DeepSeek混合专家模型的基本结构
混合专家模型(MoE)是一种深度学习架构,它通过集成多个专家模型(即子模型)来提升整体模型的预测性能和效率。每个专家网络专门处理输入数据的一个子集或特定特征,而门控网络则负责根据输入动态地选择合适的专家模型进行处理,它们之间使用专门的负载平衡与优化对资源进行调配。混合专家模型通过动态地选择和组合多个专家模型来处理输入数据,实现了高效计算与优异性能的平衡。混合专家模型是一种深度学习中的集成学习方法,它通过组合多个专家模型(即子模型)来形成一个整体模型,旨在实现高效计算与优异性能的平衡。原创 2025-05-12 11:11:54 · 450 阅读 · 0 评论 -
DeepSeek基于通道注意力的图像分类
使用卷积进行图像识别已经成为计算机视觉领域的一种重要技术。卷积神经网络(CNN)通过其独特的卷积层结构,能够有效地提取图像中的特征信息,进而实现高精度的图像识别。在图像识别过程中,卷积层扮演着关键角色。它通过滑动卷积核(也称为滤波器)来遍历整个图像,捕捉图像中的局部特征,如边缘、纹理等。这种局部特征提取方式不仅有助于减少模型的参数数量,还能提高模型对图像平移、缩放等变换的鲁棒性。随着卷积层的逐层深入,网络能够逐渐捕捉到更加抽象和高级的特征表示。这些特征在后续的分类或识别任务中发挥着至关重要的作用。原创 2025-05-08 15:27:31 · 1054 阅读 · 0 评论 -
DeepSeek自编码架构的拼音汉字生成模型
本节将综合运用前两节的知识,通过实战来检验编码器的性能—具体任务是完成拼音与汉字之间的转换训练。类似图3-17所示的效果。图3-17 拼音和汉字这种能够直接将一种序列转换为另一种序列的模型,在实际应用中,我们称之为自编码生成模型。接下来,我们将详细阐述如何使用这个自编码生成模型来完成拼音与汉字的转换。首先,我们需要准备相应的训练数据,即拼音与对应汉字的配对数据集。这些数据将作为模型的输入和期望输出,帮助模型学习从拼音到汉字的映射关系。原创 2025-05-07 11:30:12 · 874 阅读 · 0 评论 -
DeepSeek大模型原生应用和多模态应用开发案例
基于DeepSeek的跨平台智能客服应用开发。基于torchvision的端到端视频分类。这本书的案例整理出来给有需要的人士参考。基于注意力模型的酒店评论情感判断。基于MoE与自注意力的图像分类。基于交叉注意力的端到端语音识别。自编码架构的拼音汉字生成模型。基于自回归模型的酒店评论生成。基于MLA的人类语音情感分类。基于注意力模型的可控图像生成。基于VQ-VAE的手写体生成。基于混合专家模型的情感分类。基于通道注意力的图像分类。基于FSQ算法的语音存储。基于FSQ的人脸生成。基于注意力的视频分类。原创 2025-05-06 11:36:35 · 336 阅读 · 0 评论 -
基于Mamba的知识图谱模型构建
在深入本章内容之前,我们有必要了解知识图谱的基本概念。从本质上而言,知识图谱是一种特殊的语义网络,它以图状数据结构为基础,包含节点(Points)与边(Edges),形象展示如图14-1所示。在这种图谱中,每一个节点都代表着现实世界中的一个具体“实体”,而每一条边则描绘了这些实体之间的“关系”纽带。可以说,知识图谱是表达关系的一种极致方式。简单来说,它就是将各类异构信息(Heterogeneous Information)巧妙地连接在一起,从而构建出一个错综复杂的关系网络。原创 2025-04-30 14:15:02 · 947 阅读 · 1 评论 -
基于Mamba2的文本生成实战
本节将演示一个使用Mamba2模型完成文本生成任务的示例。在这个过程中,我们将充分利用已有的数据集来训练和优化Mamba2模型,以实现高质量的文本生成效果。原创 2025-04-29 15:13:32 · 441 阅读 · 0 评论 -
Mamba2模型的实现
(形状为(batch, seqlen, d_model)),通过一个线性层(nn.Linear),该层将输入映射到一个更高维的空间,以便模型能够捕捉到更丰富的特征。部分通过一个一维卷积层,该层用于捕捉序列中的局部依赖关系。这里简单地完成了注意力计算,即对输入的序列内容进行注意力建模,而mask的存在可以使得模型在计算时只关注前面步骤中的Token而不会“窥视”未来的内容。Mamba2模型通过结合SSD的高效计算、一维卷积的局部特征提取能力以及残差连接和归一化的稳定性,实现了对序列数据的快速而准确的处理。原创 2025-04-28 15:24:46 · 1298 阅读 · 0 评论 -
基于Jamba模型的天气预测实战
换言之,在样本之间,随着时间的推移,是存在相互影响的。然而,传统的算法往往只能捕捉到样本特征与标签之间的关系,即列与列之间的联系,而无法把握样本与样本之间的关联,也就是行与行之间的联系。当然,从训练集上的结果来看,此时可能还没有充分完成特征的训练,模型仍旧除于“欠拟合”状态,还需要继续训练,这一点有兴趣的读者可以继续尝试完成。对于天气预测模型的实现,我们将使用Jamba作为计算核心完成预测模型,而在输入的部分,由于输入的是一个1D数据,首先需要对其维度进行调整,整理成一个新的2D向量,从而进行后续的计算。原创 2025-04-27 21:56:27 · 783 阅读 · 0 评论 -
基于时间序列的温度预测实战
由于循环神经网络(RNN)架构的特殊性,特别适合处理时间序列数据,因此被较多地应用于时间序列预测任务。RNN能够捕捉序列中的时间依赖关系,通过隐藏状态在序列的时间步之间传递信息,使得模型能够根据历史数据来预测未来的趋势或结果,比如大气旋涡的预测如图10-1所示。图10-1 大气旋涡在时间序列预测中,RNN可以学习数据中的周期性模式、趋势以及异常值等特征,并根据这些特征进行准确的预测。例如,在金融领域,RNN可以用于股票价格预测、交易量预测等;在气象领域,RNN可以用于气温、降雨量等气象指标的预测;原创 2025-04-24 13:55:51 · 1504 阅读 · 0 评论 -
基于Mamba的拼音汉字转换模型
在这个过程中,模型作为编码器,能够分别对序列中的个体以及整体进行编码。其次是拼音编号,这里使用的是汉语拼音,与真实的拼音标注不同的是,去除了拼音原始标注,使用数字1、2、3、4替代,分别代表当前读音的第一声到第四声,这点请读者注意。在这里,我们使用Mamba架构的编码器完成模型的设计,在具体使用时,可以采用在第5章设计完成的Mamba模型进行模型的整理。首先进行数据集的准备和处理,在前面注意力章节的讲解中,我们已经遇到了拼音汉字数据集,本节将详细介绍这个数据集及其具体的处理方法。原创 2025-04-23 11:02:57 · 814 阅读 · 0 评论 -
Mamba的经典文本生成实战
例如,可以通过滚动循环的方式,从起始符开始,不断将已预测的内容与下一个字符的预测结果进行黏合,逐步生成并展示整段文字。在模型主体部分,我们采用的是与拼音汉字转换模型相同的主体结构,这也是经典的生成模型架构,其目标是根据输入的前一个(一般是多个)Token输出下一个Token,也就是next token预测。特别需要注意,对于输出结果来说,当使用经过训练的Mamba模型进行下一个真实文本预测时,相对于我们之前学习的编码器文本输出格式,输出的内容可能并没有相互关联,如图8-3所示。原创 2025-04-22 20:42:17 · 1147 阅读 · 0 评论 -
DeepSeek智能客服的设计与基本实现
"category": "智能手机和配件","warranty": "1年","5000mAh电池","无线充电","与SmartX ProPhone兼容"],"description": "带有内置电池的保护壳,可延长使用时间。",},"category": "智能手机和配件","warranty": "1年","4.7英寸显示屏","64GB存储","8MP相机","4G"],"description": "一款紧凑且价格实惠的智能手机,适用于基本任务。",},原创 2025-04-18 12:15:10 · 1193 阅读 · 0 评论 -
OpenCV滑动条事件
该函数接收的参数是一个数组,需要注意的是,clip函数的返回值是uint8的参数,但是这个函数仅仅是对原数据和0xff相与(和最低2字节数据相与),这就容易导致如果原数据是大于255的,那么在直接使用np.uint8()后,比第八位更大的数据都被截断了。windowName是滑动条将要添加到父窗口的名称,一旦滑动条创建好,它就将被添加到窗口的顶部或底部,滑动条不会挡住任何已经在窗口中的图像,只会让窗口变大,窗口的名称将作为一个窗口的标记,至于滑动条上滑动钮的确切位置则由操作系统决定,一般都是最左边;原创 2025-04-14 09:07:53 · 847 阅读 · 0 评论 -
OpenCV键盘事件
无论是刚开始学习OpenCV,还是使用OpenCV进行开发调试,都可以看到waitKey函数的身影,然而最基础的往往容易忽略,在此可以好好了解一下这个基础又常用的waitKey函数。该函数延时一段时间,返回按键的值。其中,参数delay是延时的时间,单位是ms,默认是0,表示永久等待。第二次显示的窗口,waitKey的参数是5000,即5s,如果5s内不去按键,就会自动返回。总之,waitKey函数是非常简单而且常用的函数,开始入门的时候需要掌握好它,开发调试的时候waitKey函数同样是一个好帮手。原创 2025-04-08 08:56:49 · 447 阅读 · 3 评论 -
OpenCV鼠标事件
在OpenCV中,也存在鼠标的操作,比如左键单击、双击等。对于用户来讲,操作鼠标就是一个鼠标操作;对于OpenCV来讲,则认为是发生了一个鼠标事件,需要对这个鼠标数据进行处理,这就是事件的响应。现在我们来介绍一下鼠标中的操作事件。鼠标事件包括左键按下、左键松开、左键双击、鼠标移动等。当鼠标事件发生时,OpenCV会把让一个鼠标响应函数自动被调用,相当于一个回调函数,这个回调函数就是鼠标事件处理函数。原创 2025-04-07 13:49:05 · 692 阅读 · 0 评论 -
OpenCV销毁窗口
在OpenCV中,销毁窗口时窗口会自动关闭,可以通过函数destroyWindow和destroyAllWindows来实现,前者是销毁某一个指定名称的窗口,后者是销毁所有新建的窗口。在上述代码中,我们在for循环中读取图片文件,然后新建窗口,并在窗口中显示图片5秒钟后销毁窗口。在上述代码中,首先读入一幅图片,然后新建一个窗口显示图片,接着调用函数resizeWindow调整窗口大小,由于namedWindow的第二个参数是WINDOW_NORMAL,因此图片大小会随着窗口大小的变换而变化。原创 2025-04-03 09:40:36 · 713 阅读 · 0 评论 -
OpenCV单窗口显示多图片
在上述代码中,首先读取了3幅图片,并各自返回了二维矩阵数组,这3幅图片在工程目录下可以找到,为了节省篇幅,这里不对是否读取成功进行判断,但一线企业开发则不能少这个判断。随后,把3幅图片的矩阵数组传入hstack函数中进行合并,并返回合并后的矩阵数组,然后通过imshow显示出来。输出是(4,2),shape[0]表示行数,这里是4行,shape[1]表示列数,这里是2列。输出是(4,),4就是一维矩阵的长度,因为不存在二维,也就没有二维的长度,因此括号里的逗号后面是空的。运行工程,结果如图3-7所示。原创 2025-04-02 08:27:26 · 527 阅读 · 0 评论 -
OpenCV界面编程
其中,参数winname表示新建的窗口名称,自己随便取;(3)如果图像数据类型是32F(32位浮点数)或64F(64位浮点数),那么imshow函数内部会自动将每个像素值乘以255并显示,即将原图像素值的范围由[0~1]映射到[0~255](注意:原图像素值必须归一化)。其中,参数delay表示一个延时值,单位为ms,默认为0,永久延时,一直等待,直到用户按键。其中,参数winname表示显示的窗口名,可以使用namedWindow函数创建窗口,如果不创建,imshow函数将自动创建;原创 2025-04-01 15:50:13 · 806 阅读 · 0 评论 -
OpenCV图像输入输出模块imgcodecs(imwrite函数的用法)
保存图片时,要保存为png格式的图片,因为png或tiff格式的文件即为BGRA四通道色彩空间的图像文件形式。另外,保存图片时,imwrite 的第三个参数是[cv2.IMWRITE_PNG_ COMPRESSION, 9],它实现了图片压缩功能,其中9代表图片保存时的压缩程度,有0~9这个范围的10个等级,数字越大表示压缩程度越高。(4)PSD:这是Photoshop图像处理软件的专用文件格式,文件扩展名是.psd,可以支持图层、通道、蒙板和不同色彩模式的各种图像特征,是一种非压缩的原始文件保存格式。原创 2025-03-31 08:41:22 · 731 阅读 · 0 评论 -
OpenCV图像输入输出模块imgcodecs
要处理图像,第一步就是把图像文件从磁盘上读取到内存,处理完毕后再保存到内存,所以我们先来看一下图像文件读取与保存模块imgproc。imgproc提供了一系列全局函数,用于读取或保存图像文件。原创 2025-03-28 08:00:33 · 1084 阅读 · 0 评论 -
微调:在原有Mamba模型上进行重新训练
微调(Fine-tuning)是深度学习领域的一个重要概念,主要针对预训练模型进行进一步的调整,以适应新的特定任务,如图8-5所示。下面将详细讲解微调的概念、应用及其实现过程。原创 2025-03-27 10:41:04 · 1054 阅读 · 0 评论 -
基于FSQ的人脸重建方案
将VAE表示投影到少量维度(通常少于10)。每个维度被量化为一组固定的值,由这些数值集合的乘积给出(隐式的)码本(codebook)。图13-6 FSQ与VQ算法对于具体训练,FSQ在使用重构损失训练的自动编码器中,我们获得了对编码器的梯度,这迫使模型将信息分散到多个quantization bins中,因为这减少了重构损失。最终结果是,我们获得了一个使用所有码字的量化器,而不需要任何辅助损失。尽管FSQ的设计要简单得多,但本文在图像生成、多模态生成、深度估计等任务中获得了有竞争力的结果。原创 2025-03-27 10:32:41 · 1050 阅读 · 0 评论 -
DeepSeek-VL2微调广告文案撰写案例
在本节中,我们将踏入广告文案撰写的实战领地。在此之前,我们已经深入探讨了DeepSeek-VL2微调技术中所采纳的LoRA方法,以及与之紧密相关的库包PEFT。这些尖端工具与技术,为我们的文案创作提供了强大的支持,使我们能更精准地捕捉目标受众的心理与需求。在数字化浪潮汹涌的今天,如何运用这些科技利器,打造出既富有创意又极具针对性的广告文案,将是我们探索的重点。接下来,我们将携手LoRA与PEFT,开启广告文案撰写的新篇章,书写属于DeepSeek-VL2的精彩故事。原创 2025-03-26 08:59:50 · 1187 阅读 · 0 评论 -
快速了解OpenCV的架构
OpenCV软件已经发展得比较庞大了,它针对不同的应用划分了不同的模块,每个模块专注于相应的功能。calib3d:这个模块名称是由calibration(校准)和3D这两个单词的缩写组合而成的,通过名称我们可以知道,模块主要包含相机标定与立体视觉等功能,例如物体位姿估计、三维重建、摄像头标定等。imgproc:这个模块名称是由image(图像)和process(处理)两个单词的缩写组合而成的,是重要的图像处理模块,主要包括图像滤波、几何变换、直方图、特征检测与目标检测等。原创 2025-03-26 08:54:09 · 1002 阅读 · 0 评论 -
OpenCV的Python开发环境搭建(Windows)
安装Python相关功能包需要用到pip,它是一个通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载的功能。其中,imread函数用来读取图片,由于imread不支持中文文件名,我们通过np.fromfile来读取山水.jpg,fromfile可以支持中文文件名,这个函数用法后面章节会详细讲到,这里只要了解即可。至此,基于Python的命令行OpenCV开发环境建立起来了,下面开始我们用Python开发的第一个OpenCV程序。运行该命令后稍等片刻,下载安装完成,如图2-7所示。原创 2025-03-25 08:48:10 · 700 阅读 · 0 评论 -
Linux版本DeepSeek-VL2代码下载与图像识别示例
DeepSeek-VL2是一款引人注目的MoE(Mixture-of-Experts)大语言模型,由于MoE的设计与使用,使得此模型在推断时极大提升了计算效率。通过创新的MLA机制,该模型不仅降低了计算复杂度,还显著减少了显存占用,同时结合强化学习技术,使其在各种基准测试中表现卓越,特别是在中文和代码生成任务上成绩斐然。DeepSeek-VL2的应用前景广阔,无论是在自然语言处理、文本生成,还是机器翻译、智能问答等领域,都能提供高效且准确的解决方案。原创 2025-03-25 08:38:04 · 631 阅读 · 0 评论 -
基于MLA的人类语音情感分类
随着信息技术的不断发展,如何让机器识别人类情绪,这个问题受到了学术界和工业界的广泛关注。目前,情绪识别有两种方式,一种是检测生理信号,如呼吸、心率和体温等;另一种是检测情感行为,如人脸微表情识别、语音情绪识别和姿态识别。语音情绪识别(Speech Emotion Recognition,SER)是一种生物特征属性的识别方法,可通过一段语音的声学特征(与语音内容和语种无关)来识别说话人的情绪状态。语音情绪示例如图6-3所示。图6-3 语音情绪示例。原创 2025-03-24 15:00:54 · 1174 阅读 · 0 评论 -
Mamba的经典文本生成实战
例如,可以通过滚动循环的方式,从起始符开始,不断将已预测的内容与下一个字符的预测结果进行黏合,逐步生成并展示整段文字。在模型主体部分,我们采用的是与拼音汉字转换模型相同的主体结构,这也是经典的生成模型架构,其目标是根据输入的前一个(一般是多个)Token输出下一个Token,也就是next token预测。特别需要注意,对于输出结果来说,当使用经过训练的Mamba模型进行下一个真实文本预测时,相对于我们之前学习的编码器文本输出格式,输出的内容可能并没有相互关联,如图8-3所示。以输入“你好人工智能!原创 2025-03-21 12:02:19 · 871 阅读 · 0 评论 -
Vision-MoE图像分类的实现
此外,V-MoE框架还允许研究者根据实际应用需求,灵活调整专家的数量和类型,以及专家间的连接方式,这为探索更加高效和定制化的视觉模型提供了新的视角。例如,在大型语言模型的成功启发下,V-MoE可以尝试引入大规模专家库,结合自注意力机制和MoE的优势,推动图像理解和生成任务的边界。此外,V-MoE还具备更强的泛化能力,能够更好地适应不同的图像场景和识别需求。V-MoE的设计不仅优化了计算资源的分配,减少了不必要的计算开销,还通过引入专家间的多样性和互补性,增强了模型处理复杂视觉任务的能力。原创 2025-03-21 11:56:15 · 1730 阅读 · 0 评论 -
Mamba组件:连续信号转换成离散信号的方法
对于连续信号,确定其状态表示往往颇具挑战性。幸运的是,在实际应用中,我们通常处理的是离散输入(例如文本序列),这使得问题变得相对简单。因此,我们倾向于将模型进行离散化处理,以便更好地适应这种输入类型。在这个过程中,零阶保持技术(zero-order hold technique)发挥着关键作用。其工作原理大致如下:每当系统接收到一个离散信号时,该技术会记录下这个信号的值,并将其保持不变,直到下一个离散信号的到来。这种处理方式有效地将离散的信号点转换为连续的信号段,为SSM提供了可用的连续信号输入。原创 2025-03-20 19:16:53 · 727 阅读 · 0 评论 -
注意力机制之MQA模型与MLA模型
而MLA则通过低秩压缩技术(可以理解为将高维矩阵压缩为若干个低维矩阵的乘积),进一步降低了KV缓存的需求,在保持高效推理的同时,也确保了输出质量的卓越。在MHA中,Q(查询)、K(键)、V(值)会依据每个head进行不同的变换,这意味着每个head都有其独特的感知领域和参数集,能够学习输入数据中的不同特征。在MQA中,仅有Q矩阵保留了多头的特性,即每个head仍有不同的变换。传统的注意力机制已是大有可为,它通过更改架构设计多个独立的注意力头,从不同维度捕捉输入数据的关键信息,极大地提升了模型的表达能力。原创 2025-03-20 19:09:42 · 1080 阅读 · 0 评论 -
基于Mamba的拼音汉字转换模型
在这个过程中,模型作为编码器,能够分别对序列中的个体以及整体进行编码。其次是拼音编号,这里使用的是汉语拼音,与真实的拼音标注不同的是,去除了拼音原始标注,使用数字1、2、3、4替代,分别代表当前读音的第一声到第四声,这点请读者注意。在这里,我们使用Mamba架构的编码器完成模型的设计,在具体使用时,可以采用在第5章设计完成的Mamba模型进行模型的整理。首先进行数据集的准备和处理,在前面注意力章节的讲解中,我们已经遇到了拼音汉字数据集,本节将详细介绍这个数据集及其具体的处理方法。原创 2025-03-19 17:06:26 · 941 阅读 · 0 评论 -
Mamba组件:状态空间模型简介
状态空间模型(SSM)是一种功能强大的统计工具,旨在精准地描述和预测随时间演进的复杂系统的动态状态。通过将状态空间模型的核心思想与深度学习技术相结合,开创了一种前沿的神经网络架构,这一架构不仅继承了Transformer的高效并行训练能力,同时维持了RNN的线性推理速度,从而在性能上实现了质的飞跃。状态空间模型是用于描述这些状态表示并根据某些输入预测其下一个状态可能是什么的模型。在时间t的状态下:输入序列xt):例如,在迷宫中向左和向下移动。到潜在状态的表示ht):例如,距离出口的。原创 2025-03-15 18:39:05 · 1019 阅读 · 0 评论 -
VisionMamba图像分类实战
本节完成使用多种ticket的VisionMamba图像分类实战,首先我们将完成含有位置表示的双向VisionMamba模型构建。在模型训练过程中,我们将使用适当的损失函数和优化器来最小化预测误差,并通过多次迭代来优化模型参数。为了防止过拟合,我们还会采用一些正则化技术,如Dropout和权重衰减。训练完成后,我们将对Mamba模型进行评估,通过计算分类准确率、召回率等指标来衡量其性能。此外,我们还会使用混淆矩阵来可视化模型的分类结果,以便更直观地了解模型在各类别上的表现。原创 2025-03-14 10:17:06 · 598 阅读 · 0 评论 -
【图书推荐】《OpenCV计算机视觉开发实践:基于Python》
本书共分20章,主要内容包括计算机视觉概述、OpenCV的Python开发环境搭建、OpenCV基本操作、数组矩阵、图像处理模块、灰度变换和直方图修正、图像平滑、几何变换、图像边缘检测、图像分割、图像金字塔、图像形态学、视频处理,以及停车场车牌识别、目标检测、数字水印、图像加解密、物体计数、图像轮廓、手势识别等案例。朱文伟,名校计算机专业统招硕士,20多年C\C++、Java开发经验。主导开发过密码、图形、人工智能等产品。精通Linux、Windows系统开发及数据库开发技术。原创 2025-03-13 15:42:38 · 1131 阅读 · 0 评论 -
了解一下Mamba模型
在处理长序列数据时,远程依赖关系的捕捉是至关重要的,而HiPPO通过高效压缩历史信息为系数向量,使得Mamba能够轻松应对这一挑战。这种精心的组合不仅提高了模型处理复杂任务的准确性,还增强了其稳定性和效率,使Mamba能在多个领域中发挥出色的表现,如图2-30所示。在后续章节中,我们将详细讲解Mamba在文本生成任务中的应用,到时会提供这方面的解决方案。可以看到,Mamba通过状态空间模型、HiPPO以及先进的离散化技术的有机结合,构建了一个强大而灵活的神经网络模型,为处理复杂序列数据提供了新的解决方案。原创 2025-03-13 10:13:22 · 988 阅读 · 0 评论 -
【图书推荐】《深入探索Mamba模型架构与应用》
Mamba是一种新型的深度学习架构,它在保持对序列长度近似线性扩展性的同时,提供了与Transformers相当的建模能力。本书帮助读者探索Mamba在不同领域实现卓越性能的潜力,并深入理解和应用这一新兴的模型架构。本书配套示例源码、PPT课件与读者微信交流群服务。原创 2025-03-07 16:57:28 · 1097 阅读 · 0 评论