- 博客(60)
- 收藏
- 关注
原创 DNTextSpotter翻译版
越来越多的基于Transformer架构的端到端文本识别方法展现出卓越的性能。这些方法利用二分图匹配算法在预测对象和真实对象之间执行一对一的优化匹配。然而,二分图匹配的不稳定性可能导致优化目标不一致,从而影响模型的训练性能。现有文献应用去噪训练来解决目标检测任务中二分图匹配不稳定的问题。遗憾的是,这种去噪训练方法不能直接应用于文本识别任务,因为这些任务需要执行不规则形状检测任务以及比分类更复杂的文本识别任务。
2025-07-18 12:14:39
612
原创 PaddleOCR 3.0 技术报告
本技术报告介绍了 PaddleOCR 3.0,一个 Apache 许可的开源 OCR 和文档解析工具包。为满足大语言模型时代对文档理解日益增长的需求,PaddleOCR 3.0 提出了三大解决方案:(1) 用于多语言文本识别的 PP-OCRv5,(2) 用于分层文档解析的 PP-StructureV3,以及 (3) 用于关键信息提取的 PP-ChatOCRv4。与主流视觉语言模型 (VLMs) 相比,这些参数少于 1 亿的模型在精度和效率上具有竞争力,可与数十亿参数的 VLMs 相媲美。
2025-07-15 11:43:20
991
原创 pytorch版本densenet代码讲解
"min_size": (29, 29), # 最小输入尺寸"categories": _IMAGENET_CATEGORIES, # ImageNet类别"recipe": "https://github.com/pytorch/vision/pull/116", # 训练方法transforms=partial(ImageClassification, crop_size=224), # 图像预处理meta={"num_params": 7978856, # 参数量。
2025-07-04 22:12:24
960
原创 小数据量在paddleocrv4/5训练精度不高的原因探讨
您指出了一个关键现象:即使在PP-OCRv4/v5的mobile版本上,训练效果仍然不理想。:通过"教师模型蒸馏+结构微调+渐进训练"策略,PP-OCRv5 mobile可以在您的数据集上实现99%+的F1值。:PP-OCRv4/v5在算法层面确实更先进,但它们的强大能力需要足够数据支撑。在您的69张图小数据集上,通过。这种方案既利用了v5的新架构优势,又克服了小数据集下模型容量不足的问题,最终效果可超越原始PP-OCRv3。,完全可以让v5模型达到99%+的F1值,且保持v5的高精度优势。
2025-06-27 19:41:17
1089
原创 PP-OCRv5_server_det参数中的EastRandomCropData的size问题
默认使用 640x640(1:1 比例)的设计有几个重要原因,但这些参数完全可以根据您的需求调整。这种调整既保留了您的参数结构,又针对性地优化了图像比例问题,预计可提升密集小目标检测效果 3-5%。640 即1比1的?可是我的训练用的图片并不是1比1的比例,而是2592。确保训练时显存 ≤ 10.8GB(2080Ti 安全阈值)保持 960x640 对高比例图像至关重要。:若显存超限,优先降低。
2025-06-19 20:29:14
565
原创 CSPNet: 一种增强CNN学习能力的新型骨干网络
标题CSPNet: 一种增强CNN学习能力的新型骨干网络摘要翻译神经网络在目标检测等计算机视觉任务中取得了显著成果,但其成功高度依赖昂贵的计算资源,限制了在廉价设备上的应用。本文提出跨阶段部分网络(CSPNet),从网络架构角度解决先前工作推理计算量大的问题。该问题源于网络优化中的梯度信息重复。
2025-06-18 21:24:03
786
2
原创 pp-ocrv5中的改进-跨阶段特征融合(CSP-PAN)以及在 Neck 部分引入 CSP-PAN后为何就能解决小文本漏检问题?
CSP-PAN 是在 PAN 的多尺度特征融合框架中,使用 CSP Block 替代标准卷积块作为基础构建单元。CSP Block 通过特征分割和部分处理,大幅降低计算量 (FLOPs),丰富梯度信息流,并保留更原始的特征信息。解决小文本漏检:(最直接)在浅层特征处理中,CSP Block 的捷径路径直接保留了更多高分辨率的原始空间细节,这些细节是小文本检测的关键。节省的计算资源可用于增强主干网络或其他部分,整体提升模型能力。改进的梯度流提升了模型学习细微特征(小文本)的能力。
2025-06-18 16:51:33
631
原创 java实现RabbitMQ消息发送和接收功能(包含测试)
以下是一个完整的Java类,同时包含RabbitMQ消息发送和接收功能,使用纯Java实现(非Spring Boot),包含Maven依赖:Maven 依赖 ()关键设计说明:双通道设计:消息发送功能:消息接收功能:资源管理:线程模型:运行程序:测试流程:自定义配置:添加消息序列化:添加JSON支持:添加重连机制:这个实现提供了生产级别的RabbitMQ操作,包含:您可以根据实际需求调整队列名称、消息处理逻辑和错误处理策略。
2025-06-11 11:25:19
541
原创 接收rabbitmq消息
修改连接参数自定义消息处理修改// 示例:解析JSON消息// System.out.println("收到订单: " + json.getString("orderId"));// 你的实际业务逻辑配置调整修改调整预取数量修改basicNack的requeue参数控制是否重新入队添加交换机绑定逻辑(如果需要)手动消息确认公平分发(QoS设置)连接和通道的异常处理资源清理优雅关闭机制如果需要处理更复杂的场景(如多个队列、消息持久化、死信队列等),可以在和。
2025-06-11 10:24:53
704
原创 前馈神经网络
希望这个“流水线”的比喻能让你对前馈神经网络的核心思想——“信息单向、分层、前向传播”——有一个深刻而直观的理解!—— 它正是我们之前详细讨论的“全连接网络”或“多层感知机(MLP)”最标准、最核心的形式。好的,我们来用生动形象的方式,深入浅出地理解。
2025-06-10 22:04:27
882
原创 详解pytorch
PyTorch 是一个基于 Python 的,由 Facebook 的 AI 研究团队(现 Meta AI)开发并维护。它以以及而著称,已成为,并在工业界应用日益广泛。
2025-06-10 21:59:43
872
原创 全连接网络
全连接网络是信息逐层抽象与组合的管道。输入数据(原始特征)经过一层层神经元的加工(加权求和 + 非线性激活),被逐步转化为更高层次、更抽象的特征表示,最终用于预测。“全连接”意味着信息的充分混合。每一层的每个神经元都能“看到”前一层的所有信息,并根据自己的“偏好”(权重)进行整合。非线性激活函数赋予了网络强大的表达能力。没有它,网络就失去了学习复杂模式的能力。学习就是通过反向传播和梯度下降,不断调整网络中所有连接的“强度”(权重)和神经元的“基础活跃度”(偏置),以最小化预测误差(损失)。
2025-06-10 21:51:16
980
原创 详解CNN
卷积神经网络通过其独特的局部连接权值共享和层级结构,巧妙地解决了处理高维网格数据(尤其是图像)时传统神经网络面临的问题。它能够自动学习数据的层次化特征表示,从简单的边缘到复杂的物体概念。从 LeNet 的开创性工作到 ResNet 对深度训练的突破,以及它在目标检测、分割等众多领域的成功应用,CNN 已成为深度学习和现代人工智能不可或缺的核心技术之一。理解其核心组件(卷积层、激活函数、池化层、全连接层)和经典架构的演进,是掌握深度学习,特别是计算机视觉的基础。
2025-06-10 21:27:38
839
原创 idea64.exe.vmoptions配置
这个配置通常是 JetBrains 官方推荐配置的增强版,或者是由有经验的用户根据特定需求(如处理超大项目、调试复杂问题)调整而来。(64位版本)运行时的 Java 虚拟机(JVM)参数。这些参数直接影响到 IDEA 的性能、内存使用、调试能力和行为。是非常规设置,需谨慎评估其效果。
2025-06-10 15:10:59
1454
原创 rec_pphgnetv2完整代码学习(二)
TheseusLayer 是 PaddleOCRv5 中 rec_pphgnetv2 模型的神经网络超级控制器动态结构管理运行时层替换 (计算流程控制 (stop_after权重冻结 (高级特征提取任意中间层输出捕获多尺度特征统一收集零代码修改获取特征扩展支持模型剪枝接口 (pruner量化支持 (quanter自定义扩展点OCR 特定优化文本特征多层次提取长文本处理优化小样本迁移学习支持。
2025-06-07 11:27:02
952
原创 rec_pphgnetv2完整代码学习(一)
BNAndPad双功能集成:BN归一化 + 智能填充统计驱动:基于特征分布计算填充值边界增强:有效解决特征图边缘信息衰减即插即用:可无缝替代标准BN层这种设计显著提升了模型对文本边界特征的捕捉能力,特别是在处理长文本、小尺寸文字等挑战性场景时表现突出,是OCR精度提升的关键技术之一。
2025-06-07 09:45:52
439
原创 HttpURLConnection实现
如果接口返回403错误(如之前问题所述),你可能需要添加认证信息。建议先用Postman测试确保接口可用,再用此Java代码集成到你的应用中。
2025-06-07 09:42:46
571
原创 PPHGNetV2源代码解析
动态结构重参数化训练时:多分支丰富特征表达推理时:单分支保持效率硬件感知优化conv_bn组合支持训练后融合任务驱动架构# 动态调整结构检测任务:多尺度特征金字塔识别任务:空间序列化适配CRNN结构化剪枝支持# 将指定层后所有操作设为Identity替换子模块控制训练范围PP-OCRv5选择B4的工程考量服务端CPU推理:41ms满足实时性表格检测F1:92.1%优于ResNet34模型大小:4.9MB适合云端分发训练成本:V100 16小时vs B6的32小时。
2025-06-06 19:08:54
943
原创 pp-ocrv5改进
PP-OCRv5通过统一多语言架构、强化复杂场景适应力、升级骨干网络精度飞跃:关键场景(手写体、古籍等)平均提升40%以上。部署简化:单模型替代多模型,降低工程维护成本。国产化适配:全面支持信创环境硬件,加速产业落地。目前该模型已在教育(试卷批改)、医疗(病历数字化)、金融(合同解析)等场景验证,可访问或体验进行实测。
2025-06-06 15:58:50
1314
原创 QPS、TPS、RT、IOQS、并发数等性能名词介绍
名词全称单位测量目标核心依赖QPS次/秒请求处理速度CPU、网络带宽TPS次/秒事务完成速度数据库、磁盘 IOPSRT毫秒单请求延迟代码效率、I/O 性能IOPS次/秒存储 I/O 能力磁盘类型、RAID 配置并发数个系统并行处理能力内存、线程池大小掌握这些指标有助于:✅ 精准评估系统容量✅ 快速定位性能瓶颈(如 TPS 低 → 查数据库或磁盘 IOPS)✅ 设计高可用架构(如 QPS 10万+ 需引入负载均衡+分布式缓存)
2025-06-06 15:55:10
1054
原创 ubuntu 安装上传的 ffmpeg_7.1.1.orig.tar.xz并使用
在 Ubuntu 系统上离线安装make需要提前准备好所有依赖包。
2025-05-29 20:04:18
1278
原创 redis在spring boot中异常退出
等手段,可以有效控制连接数的健康增长。如果问题仍未解决,建议结合网络抓包(如 Wireshark)进一步分析 TCP 连接生命周期。的异常增长通常源于客户端连接管理不当或配置不合理。以 Spring Boot 为例,确认。修改 Redis 配置文件。
2025-05-19 09:58:28
1009
原创 关于 Redis Stream 的消费场景中的block参数设置问题
参数,可在消息处理的实时性、系统资源消耗和业务可靠性之间取得最佳平衡。具体数值需通过压力测试结合业务指标确定。参数的设置直接关系到消息读取的实时性和系统资源消耗的平衡。在 Redis Stream 的消费场景中,
2025-05-17 17:12:14
505
原创 Redis客户端连接失败问题解决方案
根据报错信息和你的描述,尽管Redis服务正常运行,但Java客户端出现了连接失败的问题。解决,同时确保客户端配置正确。如果问题仍存在,建议使用网络抓包工具(如 Wireshark)分析 TCP 握手过程。问题根源可能是客户端频繁创建短连接导致本地端口耗尽,而非 Redis 服务异常。观察连接生命周期(创建、复用、关闭)。
2025-05-17 11:41:05
1097
原创 spring.redis 和 spring.data.redis的区别
Bean总结:负责 Redis 的基础连接配置(必填)。:控制 Spring Data Redis 的高级行为(可选)。两者是互补关系,共同完成对 Redis 的完整集成。
2025-05-17 11:33:45
1119
原创 RabbitMQ 作为消息总线
路由键(Routing Key):一个字符串,用于指示从生产者发送到交换器的消息应该被路由到哪个队列。创建通道(Channel):在连接上创建一个通道,所有的操作(如声明队列、交换器等)都在通道上执行。交换器(Exchange):接收来自生产者的消息,并根据路由键将它们路由到一个或多个队列。可靠性:RabbitMQ 提供了多种保证消息可靠性的机制,如持久化消息、发布确认和事务。绑定(Binding):交换器和队列之间的关联,决定了哪些队列会接收哪些消息。发布消息:通过交换器发布消息到指定的队列。
2025-05-13 14:29:07
434
原创 YOLO检测反光服区域 + 轻量级可控服装生成 + 真实后处理(实测可运行)
模型(仅200KB),但细节保留能力略有下降。完整代码已在低配设备(Intel i5 + 8GB RAM)验证通过。模块缺失),我们可以替换超分辨率方案为更轻量且无复杂依赖的方法。以下是修改后的代码方案,使用。若需进一步轻量化,可将。
2025-05-10 19:54:15
437
原创 YOLO检测反光服区域 + 轻量级可控服装生成 + 真实后处理(仅参考思路)
该方案在GTX 1660 Ti上实测单图处理时间约12秒,若需进一步轻量化可替换Stable Diffusion为更小模型(如LCM_Dreamshaper_v7)。
2025-05-10 19:53:23
267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人