自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

所有专家都曾始于新手

Continuous improvement is better than delayed perfection.

  • 博客(648)
  • 收藏
  • 关注

原创 基于OpenCV的cv2.solvePnP方法实现头部姿态估计

摘要: 本文探讨了基于OpenCV的cv2.solvePnP方法实现头部姿态估计,以区分用户注视电脑屏幕或手机的行为。核心流程包括:1)通过2D面部特征点与预设3D模型点(需优化为解剖学准确模型)求解PnP问题;2)转换为欧拉角(俯仰角、偏航角、翻滚角)分析头部朝向。研究发现,手机使用与显著正向俯仰角相关,但需通过实验数据确定场景特异性阈值(如20°),而非依赖通用值。关键改进包括采用标定相机参数、优化3D模型及标准化角度提取方法,以提升系统鲁棒性。最终结合姿态分析与清晰度评分,实现用户注意力状态的可靠推断

2025-08-01 16:40:33 496

原创 解读LISA:通过大型语言模型实现推理分割

LISA是一种突破性的多模态AI模型,开创性地将大型语言模型(LLM)的推理能力与图像分割任务结合,提出"推理分割"新范式。其核心创新在于"Embedding as Mask"机制,通过特殊_TOKEN将LLM的文本输出引导至像素级分割任务。模型采用高效微调策略,在少量专业数据训练下即展现出强大的零样本能力,在ReasonSeg基准测试中gIoU达64.2%。LISA不仅实现了对复杂语言指令的理解和精确分割,更推动了AI从感知智能向认知智能的跨越,为多模态交互开辟了新

2025-08-01 11:24:00 532

原创 多模态智能体(Agent)框架——Agno

Agno是一个轻量级多模态智能体开发框架,支持构建具有记忆、知识和推理能力的多智能体系统。其核心优势包括:极高性能(智能体实例化仅需2-3微秒)、超低内存占用(3.75-6.5KiB/智能体)以及对文本、图像、音频的多模态处理能力。框架采用模型无关设计,支持连接OpenAI、Anthropic等多种AI服务商。学习资源主要包括官方文档、GitHub代码库和社区支持,目前缺乏官方认证课程。典型应用场景涵盖金融分析、智能客服、个性化推荐等领域。开发路径建议分四阶段:基础入门→核心能力掌握→多智能体协作→生产部署

2025-07-29 10:29:25 1158

原创 深度研究——OpenAI Researcher Agent(使用OpenAI Agents SDK)

OpenAI Agents SDK 是一个基于Python的轻量级框架,用于构建多智能体协作系统。该框架支持自定义工具、多代理协作和任务交接,可用于自动化研究、报告生成等复杂任务。核心组件包括Agent类(定义智能体角色和指令)、Runner类(执行智能体流程)和工具系统(集成外部API)。开发者可以通过环境变量配置OpenAI API密钥,使用异步编程实现智能体交互。该SDK还提供调试追踪和安全护栏功能,确保系统行为符合预期。适用于客户服务、数据分析、自动化研究等多个领域,显著降低了构建复杂AI应用的门槛

2025-07-28 22:01:21 987

原创 多目标跟踪——DeepSORT 算法

摘要:DeepSORT算法通过融合深度外观特征(CNN提取的128维Re-ID向量)与运动建模(卡尔曼滤波),显著提升了多目标跟踪在遮挡场景的鲁棒性,相比SORT算法ID切换率降低34%。其双模态关联机制结合马氏距离与余弦相似度优化匹配,后续变体(如HyperDeepSORT)通过自适应卡尔曼滤波和HyperNMS进一步优化性能。硬件部署中,边缘设备采用FP16量化或轻量化模型(如MobileNet)可平衡速度与精度,Jetson Orin Nano在能效比上表现突出。未来研究方向包括知识蒸馏压缩模型和光流

2025-07-24 14:03:14 660

原创 DBSCAN聚类算法

DBSCAN算法在复杂数据聚类中的应用与优化 摘要:本文深入分析了DBSCAN算法的核心原理、参数影响及优化方法。研究显示,DBSCAN的聚类效果主要受eps和minPts两个参数影响,合理选择参数对结果至关重要。与传统算法相比,DBSCAN在噪声处理和任意形状聚类方面具有优势。针对高维数据挑战,提出了降维预处理、参数自适应等优化方案。近年来的GPU加速和分布式计算技术显著提升了算法性能。文章还介绍了DBSCAN在地理空间分析、异常检测等领域的应用案例,并提供了基于人脸特征聚类的Python实现代码。最后指

2025-07-21 23:33:26 898 2

原创 基于ArcFace损失函数训练的人脸特征提取模型

摘要:ArcFace是一种基于加性角余量损失(Additive Angular Margin Loss)的深度人脸识别算法,通过在角度空间引入固定余量增强类间可分性。相比传统Softmax,其决策边界更清晰,特征分离效果更优(LFW准确率99.83%)。核心实现包括双L2归一化和角余量惩罚(典型参数s=64,m=0.5),支持工业级应用如智慧安防(10万+人脸库实时识别)。通过Partial-FC和CurricularFace等改进方案,在保持精度的同时显著提升训练效率(显存占用降95%)。当前面临低光照场

2025-07-21 17:13:44 907

原创 敏捷开发的历史演进:从先驱实践到全域敏捷(1950s-2025)

敏捷开发经历了从1950年代迭代思想萌芽到2001年《敏捷宣言》确立的发展历程。早期实践包括1980年代快速原型设计、1990年代Scrum和极限编程(XP)的提出。2001年17位专家签署《敏捷宣言》,确立四大核心价值观。2010年后进入规模化阶段,SAFe框架迭代并广泛应用于金融、医疗等行业。2020年后与AI、云原生等技术深度融合,向非IT领域扩展。看板方法通过可视化工作流、限制在制品(WIP)数量等实践,成为敏捷主流工具之一。敏捷开发强调响应变化高于遵循计划,其核心理念持续指导着软件开发范式的演进。

2025-07-20 11:36:39 813

原创 人脸检测算法——SCRFD

SCRFD是一种高效人脸检测算法,通过双重重分配策略(样本重分配SR和计算重分配CR)实现性能优化。其特点包括:1)采用无锚框检测机制,基于FCOS实现边界框预测;2)通过NAS动态分配计算资源,优化骨干网络、特征金字塔和检测头的计算比例;3)支持多规格模型(0.5GF-34GF)和硬件加速(FP16/INT8量化)。在WIDERFACE数据集上,SCRFD-34GF以11.7ms推理延迟实现85.29%的Hard AP,性能优于RetinaFace。代码实现完整封装了图像预处理、模型推理和结果后处理流程,

2025-07-18 22:55:45 764

原创 opencv、torch、torchvision、tensorflow的区别

非深度学习框架DataLoader。

2025-07-17 13:04:35 1107

原创 【软件运维】前后端部署启动的几种方式

这个 Makefile 提供了一个简洁的接口来管理常见的开发任务,通过简单的make dev命令就能启动整个开发环境,大大简化了开发者的工作流程。它体现了 Makefile 作为项目任务自动化工具的经典用法,特别适合需要同时管理多个服务的项目。一、后端启动方式。

2025-07-09 14:19:36 737

原创 【AI应用开发数据基建】从非结构化数据到结构化知识的通用转化流程

确定数据来源(文档、视频、音频、图片、社交媒体等):设计可扩展的批量处理机制。

2025-06-12 23:44:02 1173

原创 【思考】对“私有化利润,公有化风险”现象的思考

在缺乏制度约束的资本主义游戏中,社会大众永远是最后的接盘侠。要打破这种“大而不倒”的魔咒,需要的不仅是技术性修补,更是对“企业-社会”契约关系的重构——当企业享受规模红利时,必须同步承担对等的社会责任。否则,所谓的“市场规律”不过是特权者收割弱者的遮羞布罢了。房地产有金融属性,对于普通人来说还有哪些也是?房地产因其兼具居住属性和金融属性,成为普通人最熟悉的“投资品”之一。但实际上,许多看似普通的消费或资产,同样具备金融属性——它们可能成为财富增值的工具,也可能成为风险传导的载体。

2025-06-03 00:32:31 1080

原创 从零构建知识图谱应用:Neo4j安装、CQL与Python全栈开发实战

name: strpass# 如果你想在响应中包含 Neo4j 内部 ID,可以添加,但不推荐直接暴露title: strpass。

2025-06-02 23:09:11 1110

原创 【高并发】Celery + Redis异步任务队列方案提高OCR任务时的并发

线程池在处理OCR任务时仍会阻塞请求,主要原因包括:请求-响应周期未分离、共享进程资源、Python的GIL限制等。这些问题导致高并发请求时线程池满,新请求被阻塞,长任务占用线程,资源竞争加剧。相比之下,Celery+Redis提供了更好的解决方案,通过异步任务队列实现真正的异步解耦,资源隔离,可靠性保障和状态监控。Celery+Redis的优势包括:立即返回任务ID,独立进程处理OCR,任务持久化和自动重试,支持实时查询任务状态。性能对比显示,Celery+Redis在请求响应时间、最大并发处理能力、资源

2025-05-09 18:10:32 1399 1

原创 【Flask】ORM模型以及数据库迁移的两种方法(flask-migrate、Alembic)

在Flask中,ORM模型通常是通过SQLAlchemy(最流行的Python ORM工具)或类似的库来定义的。一个ORM模型对应数据库中的一个表。

2025-05-05 20:53:10 1210

原创 【JWT+OAuth】Fastapi+Vue中的用户权限管理设计

它是一个装饰器工厂函数,接收一个权限名称作为参数,返回一个 FastAPI 依赖项用于检查当前请求的用户是否拥有指定的权限。

2025-05-03 23:28:51 978 3

原创 DeepSeek谈《凤凰项目 一个IT运维的传奇故事》

这本书的价值不仅在于DevOps技术实践,更在于对组织文化和思维模式的颠覆——正如Erik所言:"IT工作的目标不是更努力,而是更聪明。)是Gene Kim、Kevin Behr和George Spafford合著的一部小说,通过虚构的故事生动展现了IT运维中的核心挑战和DevOps文化的变革力量。:小说中濒临失败的IT项目代号,象征传统IT管理方式(冗长流程、部门壁垒)的困境。例如:代码扫描(SAST)、依赖检查(SCA)、运行时防护(RASP)。

2025-04-30 18:54:18 828

原创 Git从入门到协作:开发者必备的版本控制指南

例如,如果你的本地分支与远程仓库的 `origin/master` 分支关联,执行 `git pull origin master` 会将 `origin/master` 的最新更改合并到你的本地 `master` 分支。当你执行 `git pull` 命令时,Git 会先执行 `fetch` 操作,然后自动将远程分支的最新更改合并到你的当前分支。其中 `<remote-name>` 是你为远程仓库指定的名称(通常为 `origin`),`<remote-url>` 是远程仓库的 URL。

2025-04-24 00:33:40 798

原创 Pytorch实用教程(一):torch.compile计算提速

开源仓库:TingsongYu/PyTorch-Tutorial-2nd: 《Pytorch实用教程》(第二版)无论是零基础入门,还是CV、NLP、LLM项目应用,或是进阶工程化部署落地,在这里都有。相信在本书的帮助下,读者将能够轻松掌握 PyTorch 的使用,成为一名优秀的深度学习工程师。在线阅读:简介 · PyTorch实用教程(第二版) (tingsongyu.github.io)

2025-04-22 14:10:25 1138

原创 【Flask】Explore-Flask:早期 Flask 生态的实用指南

PEP 8 和文档字符串仍是 Python 开发的基石,但可通过工具自动化。

2025-04-21 13:26:11 622

原创 【开源项目】Excel手撕AI算法深入理解(四):注意力机制(Self-Attention、Multi-head Attention)

多头注意力的核心思想是“分而治之”分:通过多组投影并行学习多样化的注意力模式。合:拼接并融合所有头的输出,得到更全面的表示。这种设计让 Transformer 能够同时处理复杂依赖关系(如长距离依赖、多类型关系),成为现代 NLP 的基石。

2025-04-17 20:39:24 876

原创 【开源项目】Excel手撕AI算法深入理解(二):多层压缩重建(Autoencoder、Multi-Layer Perceptron (MLP)、Residual Network (ResNet))

Autoencoder 的核心是通过“压缩-重建”学习数据的本质特征。理解其数学原理(如与 PCA 的关系)和变体(如 VAE)是深入应用的关键。

2025-04-16 20:34:44 740

原创 【开源项目】Excel手撕AI算法深入理解(三):时序(RNN、mamba、Long Short Term Memory (LSTM)、xLSTM)

Selection:赋予模型动态过滤能力,是Mamba的核心创新。:通过时变递归实现自适应记忆。:将连续理论落地为可计算的离散操作。

2025-04-15 23:11:44 1239

原创 【开源项目】Excel手撕AI算法深入理解(五):进阶(Transformer、Transformer-Full-Stack、AlphaFold)

原始论文(《Attention Is All You Need》)中采用modeldff​=4×dmodel​(如512→2048),这是经验性选择平衡模型容量和计算效率。实验表明,扩展倍数小于4可能导致性能下降,大于4则收益递减。2.3 解码器层(Decoder Layer)比编码器多一个掩码多头注意力(Masked Multi-Head Attention)掩码机制:防止解码时看到未来信息(训练时用三角矩阵掩码)。编码器-解码器注意力:解码器的Q来自上一输出,K/V来自编码器输出。3. 关键数学细节。

2025-04-13 17:21:01 729

原创 【开源项目】Excel手撕AI算法深入理解(一):基础(ReLU、SoftMax、Temperature)

定义ReLU和LeakyReLUrelu = nn.ReLU() # 默认参数print(relu(x)) # 输出: tensor([0., 0., 2.])print(leaky_relu(x))# 输出: tensor([-0.0100, 0.0000, 2.0000])概率化输出将神经网络的原始输出(可能为任意实数)转换为 0 到 1 之间的概率值,且所有类别的概率之和为 1。

2025-04-13 14:06:09 731

原创 【书籍】DeepSeek谈《持续交付2.0》

持续交付2.0》是乔梁在经典著作《持续交付》基础上的升级版本,它不仅延续了第一版的核心思想,还结合了数字化转型时代的新需求,提出了更系统化的方法论。

2025-04-11 00:21:20 1083

原创 【书籍】DeepSeek谈《程序员修炼之道-通向务实的最高境界》

程序员修炼之道》(The Pragmatic Programmer)是一本超越具体技术的开发者思维指南,它教会我们如何以「务实者」而非「码农」的视角看待软件开发。

2025-04-05 16:53:13 926

原创 【大模型】两种工具调用模式:预制工具 vs 动态代码生成

预制工具调用和动态代码生成各有优劣,没有绝对的好坏之分。开发者应根据具体应用场景的安全要求、灵活性需求和开发资源,选择最适合的模式或组合。在大多数企业级应用中,混合模式往往能提供最佳的平衡点。

2025-04-05 15:00:46 1075

原创 【Pandasai】理解SmartDataframe 类:对dataframe添加自然语言处理能力

将普通 pandas DataFrame 转换为具有自然语言交互能力的智能 DataFrame通过 chat() 方法允许用户用自然语言查询数据维护数据表的元信息(名称、描述等)提供便捷的属性和方法访问底层 DataFrameAgent 类的主要职责是:接收自然语言查询生成相应的数据处理代码执行生成的代码处理执行结果或错误维护对话上下文和状态。

2025-04-05 12:07:52 898

原创 【书籍】DeepSeek谈《人月神话》

人月神话》是软件工程领域的经典之作,Fred Brooks 以其在 IBM System/360 项目中的深刻经验为基础,提出了许多至今仍被广泛讨论的洞见。

2025-04-05 10:43:27 813

原创 【书籍】DeepSeek谈《软件开发的201个原则》

软件开发的201个原则》(201 Principles of Software Development)是一本经典的软件开发指南,浓缩了行业经验和最佳实践。)的实施时机,我的建议是:既不是完全在写代码时立即封装,也不是等项目完成后再处理,而是一个渐进式、有意识的平衡过程。不要过度设计:在首次编写代码时,如果某段逻辑的复用性不明显(例如只被调用1次),可以先实现功能,确保代码正确性。” 前端分层:数据层(Axios)、逻辑层(Composition API)、视图层(模板)分离。

2025-03-29 15:37:27 749

原创 【源码阅读/Vue & Flask前后端】简历数据查询功能

一般就是三个层面,model层面用来建立数据库的字段,service用来对model进行操作,写一些数据库操作的代码,route就是具体的功能了,其中会包含一些数据库service层的函数。

2025-03-29 15:09:49 869

原创 【论文写作】Overleaf latex写作

fig1.png 到 fig9.png、fig8a.png、fig8b.png:PNG格式的图表或照片,用于文档中的插图。sn-article.tex 主LaTeX源文件,包含文档内容(文字、公式、图表引用等)和结构命令(如\section)。sn-bibliography.bib BibTeX数据库文件,存储所有参考文献的元数据(作者、标题、期刊等)。Tfig1.png 到 Tfig4.png:可能为附加图表(前缀“T”可能表示“Table”或特定分类)。

2025-03-26 20:35:18 678

原创 【复盘】大批数据清洗前如何进行数据认知

在批量数据处理前先对数据有一些基本的了解,再去动手处理,会提高效率,而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。

2025-03-24 20:28:10 886

原创 【工程实践/源码阅读】批量文件处理步骤以及如何并行处理

需要对3000份文件进行处理,内容、文件名不是很标准,而且文件类型多种多样,需要统一转成PDF,再从PDF解析为markdown。再各个处理的阶段,也会带来一些脏数据,比如doc转PDF的时候,就可能有部分doc转换失败。在数据处理过程中,往往会形成一些超大文件(这些文件中可能是乱码),这些文件如果不处理会影响后续的处理效率。排序完查看一下大文件和小文件,是不是最大文件是处理后乱码变成脏数据,还有最小文件是不是空白页没有进行处理。这里是估计了一下超过9页的文件可能是一个脏数据,然后就删除。

2025-03-23 22:08:40 494

原创 【记录】并行运行olmocr把服务器跑崩

之前有一篇博客讲的并行脚本来处理,但发现这个olmocr光多GPU运行不管用,因为只开了一个30024端口,这些8个GPU仍然要争抢一个端口,其实质上还是串行的,那修改的思路就是,我开8个端口,每个端口对应一张卡,那是不是就能够彻底地并行运行了。好吧都是自己吓自己,不过到机房的时候,服务器确实卡死机了,我给他强制关机然后重新启动了。对olmocr的源码进行了修改,原先源码中端口是一个全局变量在最开始初始化定义了30024的端口,现在把他给改成可以接受命令行传过来的参数。8个卡两个端口,还是跑不成功。

2025-03-22 14:43:47 443

原创 【工程实践/大批量文件处理】文件排序

sorted函数可以对文件列表进行排序,默认按字母顺序排序。通过key参数,可以自定义排序规则,例如按文件扩展名、文件大小、修改时间等。通过,可以实现逆序排序。如果你有更具体的排序需求,可以告诉我,我会帮你写出对应的代码!

2025-03-20 22:09:19 483

原创 【Leetcode】430. 扁平化多级双向链表

需要找一个简单的题实现一下递归。

2025-03-19 20:06:31 305

原创 【源码阅读/工程实践】并行运行10张GPU榨干算力

之前的还是串行,是因为在for循环中,每次执行下一个python文件都需要等待上一批的处理做完,这里可以有一种异步的方式,就是选定了GPU张数之后让命令在后台运行,这样就不用等待,会迅速接下一个python文件的执行。每次执行python文件都是新开一个进程用不一样的GPU环境,互相不冲突。有3000份PDF需要OCR解析,原有的项目是用命令行来执行的。将初始的数据文件等分成10份,用args来获取外部给的参数,并切换到对应的第几份文件上。都跑起来了,不浪费一点两台服务器的算力资源,全是中国红。

2025-03-19 19:13:27 1052

基于ArcFace损失函数训练的人脸特征提取模型

基于ArcFace损失函数训练的人脸特征提取模型

2025-07-21

人脸检测算法-SCRFD

人脸检测算法-SCRFD

2025-07-18

【部署/工具】zeotero好用的插件推荐以及安装

【部署/工具】zeotero好用的插件推荐以及安装

2025-03-12

部署ubuntu部署olmOCR

部署ubuntu部署olmOCR

2025-03-14

遥感-PROSAIL模型-LAI反演

ARTMO,是MATLAB环境的辐射传输模型工具箱,包含有PROSAIL-SAIL传输模型,3.29版本,该版本需要配合5.5.6的数据库一起使用,已经放在文件夹里了。走一条开源的路

2025-02-19

GOT-OCR的论文文件

GOT-OCR的论文文件

2025-01-14

Qt操作主/从视图及XML-实例:汽车管理系统

Qt操作主/从视图及XML-实例:汽车管理系统

2024-10-05

GEE计算遥感生态指数RESI

GEE计算遥感生态指数RESI

2024-07-04

土壤侵蚀量化评估-文献《基于 USLE 的甘南川西北土壤侵蚀研究》

土壤侵蚀量化评估-文献《基于 USLE 的甘南川西北土壤侵蚀研究》

2024-03-03

USLE模型-LS因子的计算

USLE模型-LS因子的计算

2024-03-01

高分影像RPC校正工具

包含rpc.exe和一个xml文件

2024-02-28

一带一路流域2022-2023年降水量变化GIF可视化

一带一路流域2022-2023年降水量变化GIF可视化

2024-01-17

赵英时《遥感应用分析原理与方法》上课PPT

https://www.bilibili.com/video/BV1VV411v7r3/?spm_id_from=333.337.search-card.all.click B站有些朋友没有PPT资源,评论区问,CSDN分享下

2023-11-27

作物模型-土壤数据制备过程

作物模型-土壤数据制备过程

2023-11-02

2020年河北省玉米种植地分布30米分辨率

2020年河北省玉米种植地分布30米分辨率

2023-10-02

Python计算巴氏距离

硕士论文

2023-09-30

雄安新区高程+区位组合图

Arcgis制作

2023-08-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除