u0v1w2x3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
55、由布朗运动驱动的扩散型随机微分方程的图像解
本文探讨了由布朗运动驱动的扩散型随机微分方程的图像解。通过可视化分析,揭示了布朗运动和随机微分方程解的行为特征,并展示了参数如漂移系数 μ、扩散系数 σ 和随机游走的概率 p 如何影响解的随机性。文章还介绍了伊藤积分与伊藤公式等关键概念,并总结了相关数学理论及其实现方法。原创 2025-07-15 15:05:58 · 32 阅读 · 0 评论 -
54、在线手写孟加拉语和天城文基本字符识别:基于迁移学习的方法
本文探讨了基于迁移学习的在线手写孟加拉语和天城文基本字符识别方法,通过使用在ImageNet上预训练的ResNet50、VGG-16和Inception-v3模型进行实验,对比了迁移学习与从头开始训练的效果。研究结果表明,迁移学习在识别准确率和模型构建时间方面均具有显著优势,即使在数据增强的情况下仍能保持优异性能。此外,该方法在资源有限的环境下也表现出良好的适应性,为多语言手写识别提供了高效且可行的解决方案。原创 2025-07-14 09:15:54 · 28 阅读 · 0 评论 -
53、图像与字符识别技术的前沿探索
本文探讨了图像与字符识别领域的前沿技术,包括基于轻量级神经网络的坏像素检测方法、采用Sf3CNN框架的视频人脸识别技术以及迁移学习在在线手写字符识别中的应用。文章详细分析了不同模型的实验结果,并指出了这些技术未来的发展方向和潜在应用场景。原创 2025-07-13 11:26:10 · 18 阅读 · 0 评论 -
52、图像文本语言识别与拜耳图像坏点检测技术
本博文介绍了图像文本语言识别与拜耳图像动态坏点检测技术的研究进展。在图像文本语言识别方面,采用设备端高效架构,利用变音字符识别13种拉丁语言,并探讨了向其他文字系统扩展的未来方向。在拜耳图像坏点检测方面,提出了两种神经网络架构(NN I和NN II),用于动态坏点的检测与校正,并对其性能、计算复杂度及改进空间进行了详细分析。文章还总结了两项技术的应用场景与潜在价值,为后续研究与应用提供了重要参考。原创 2025-07-12 10:54:18 · 25 阅读 · 0 评论 -
51、利用变音字符进行图像文本的设备端语言识别
本文提出了一种创新性的方法,通过利用变音字符进行图像文本的设备端语言识别,以提高光学字符识别(OCR)的性能。该方法结合了文本定位、变音字符检测和语言识别技术,构建了一个高效的完整管道,并在实验中验证了其高精度与低计算需求,适用于智能翻译设备、文档处理软件和移动办公等应用场景。原创 2025-07-11 12:18:24 · 17 阅读 · 0 评论 -
50、基于复梯度函数(CGF)的描述符在虹膜生物识别和动作识别中的应用
本文提出了一种基于复梯度函数(CGF)的新型局部描述符,通过将图像梯度的幅度和方向映射到复平面来捕捉图像纹理的主要特征。该描述符在虹膜生物识别和深度序列的人类动作识别中表现优异。实验结果显示,在多个虹膜数据集上,其等错误率(EER)平均降低了13.9%,d-prime值提高了4.78%;在MSR Action 3D数据集上,两种设置下的平均识别准确率分别达到96.39%和95.24%。CGF描述符具有计算成本低、易于实现且鲁棒性强的优点,未来有望应用于更多图像处理任务中。原创 2025-07-10 11:30:49 · 30 阅读 · 0 评论 -
49、实时嵌入式平台手语翻译器及复杂梯度函数描述符研究
本研究聚焦于开发一种基于实时嵌入式平台的手语翻译系统及提出一种基于复杂梯度函数的新型局部特征描述符。手语翻译系统采用HSV颜色空间进行肤色分割,提取感兴趣区域后使用MobileNetV2分类器进行手语识别,并通过NVIDIA Jetson Nano和TensorRT实现高效的实时推理。实验表明,该方法在准确率和实时性能上均优于现有模型,适合嵌入式部署。同时,提出的复杂梯度函数(CGF)描述符利用图像梯度的大小和方向信息,在虹膜生物特征身份验证和人类动作识别任务中表现出良好的性能。未来的研究将探索更高效的手部原创 2025-07-09 13:13:56 · 16 阅读 · 0 评论 -
48、背光图像感兴趣区域增强与实时手语翻译器研究
本博客介绍了在图像处理和辅助交流领域的两项重要研究成果:背光图像感兴趣区域增强和实时手语翻译器的开发。针对背光图像亮度低、对比度不足的问题,提出了一种结合色调映射、梯度映射和图像融合技术的方法,有效提高了图像质量。同时,基于MobileNet架构实现的高效手语翻译器可在嵌入式平台上运行,实现了90%的准确率和20帧/秒的处理速度,为听障人士提供了便捷的交流工具。这些进展将推动相关技术的发展并带来更广泛的应用前景。原创 2025-07-08 15:27:10 · 26 阅读 · 0 评论 -
47、FGrade:用于番茄新鲜度分级的大数据集及背光图像感兴趣区域增强
本文介绍了一个用于番茄新鲜度分级的大数据集FGrade,并提出了一种新颖的背光图像感兴趣区域增强方法。FGrade数据集包含12个品种的6470张番茄图像,分为10个新鲜度等级,适用于研究和开发计算机视觉模型。文章还对多种深度学习模型在该数据集上的表现进行了基准测试,并指出现有方法在多类别分级任务中的局限性。此外,本文提出了一种无需基于金字塔操作的背光图像增强方法,综合多种特征(如色调映射、曝光度、梯度等)进行融合处理,取得了良好的增强效果。研究还总结了现有图像增强方法的优缺点,并展望了未来改进方向,包括网原创 2025-07-07 13:00:27 · 22 阅读 · 0 评论 -
46、图像去模糊与番茄新鲜度分级:技术与数据集的创新探索
本文探讨了基于深度强化学习的图像去模糊方法DeblurRL以及用于番茄新鲜度分级的大型数据集FGrade。DeblurRL通过像素级智能体策略和全卷积网络,在GoPro数据集上实现了高效的图像去模糊效果。FGrade数据集包含约6000张番茄图像,为基于新鲜度的农产品质量分级提供了重要资源。研究展示了科技在计算机视觉和农业领域的交叉应用潜力,为未来相关技术的发展提供了创新思路。原创 2025-07-06 12:17:32 · 21 阅读 · 0 评论 -
45、低光照图像校正与图像去模糊技术详解
本文详细介绍了两种图像处理技术:基于PSO的低光照图像校正方法和基于深度强化学习的图像去模糊方法。前者通过颜色空间转换、拉普拉斯滤波、分类校正和PSO-based伽马校正等步骤有效提升低光照图像的视觉质量和定量指标;后者利用深度强化学习,结合奖励图卷积和全卷积网络,在处理非均匀模糊问题上表现出色。两种方法在实验中均展示了其独特优势,为图像处理领域提供了有效的解决方案。原创 2025-07-05 14:58:39 · 23 阅读 · 0 评论 -
44、图像优化技术:表格检测与低光照图像校正
本文介绍了两种图像优化技术:一是基于深度学习的表格检测框架 DeepDoT,该框架在多个数据集上表现出色,能够高效准确地检测文档图像中的表格;二是基于粒子群优化的低光照图像校正方法,通过多步骤处理流程结合 Gamma 校正技术,有效改善低光照图像的视觉质量。文章还分析了这两种技术的优势,并探讨了它们在文档处理、安防监控等领域的应用前景。原创 2025-07-04 15:35:30 · 22 阅读 · 0 评论 -
43、手势识别与表格检测技术:创新方法与实验成果
本文探讨了手势识别和表格检测技术的创新方法与实验成果。在手势识别方面,提出了一种基于轨迹与形态的综合方法,通过轨迹归一化、距离矩阵计算和决策制定实现高效的手势分类,并在UOM-SL2020数据集上进行了验证。针对表格检测问题,介绍了DeepDoT框架,该方法结合特征金字塔网络和焦点损失函数,有效解决了文档图像中表格检测面临的类不平衡和高内类差异问题。文章还对两种技术进行了对比分析,并展示了其在智能家居、虚拟现实、文档处理等多个领域的应用潜力。原创 2025-07-03 10:39:52 · 24 阅读 · 0 评论 -
42、手语视频中的手势识别:基于手部位置跟踪和形状的内侧表示
本文提出了一种基于轨迹 - 形态学方法的手语识别系统,通过对手部位置跟踪和形状的内侧表示实现高效的手势识别。该方法结合关键对象的轨迹分析和形状动态变化特征,通过初级处理、二级处理和分类三个阶段,实现了对 UOM - SL2020 手语数据集的高识别准确率(F1 分数达 0.8)。文章还详细分析了技术细节、与其他方法的对比、应用场景及未来展望,为手语识别技术的发展提供了新思路。原创 2025-07-02 16:01:52 · 18 阅读 · 0 评论 -
41、基于领域自适应的图像情感识别技术
本文提出了一种基于领域自适应的图像情感识别技术,通过将图像内容转化为字幕描述,并利用重新训练的文本情感识别模型进行情感分类。该方法解决了缺乏大规模情感标注图像数据、传统CNN在特征提取中的局限性以及非人脸图像情感识别困难等问题。实验结果显示,所提方法在图像情感识别任务中达到了59.17%的准确率,优于多种先进方法。未来的研究方向包括改进字幕生成模块、探索纯视觉模态的领域自适应方法以及扩展更多的情感类别。原创 2025-07-01 11:01:16 · 16 阅读 · 0 评论 -
40、基于深度学习的面部与图像情感识别技术解析
本文探讨了两种基于深度学习的情感识别技术:戴口罩面部图像情感识别系统(DFERSFM)和利用图像字幕进行图像情感识别的领域自适应技术。DFERSFM通过CNN架构,在实时场景中实现了高准确率的面部情感识别,尤其适用于戴口罩的情况;而领域自适应技术则借助图像字幕将情感信息从图像领域转换到文本领域,解决了缺乏大规模标注数据的问题。文章还对两种技术的优势、局限及综合应用进行了分析,为未来情感识别技术的发展提供了思路。原创 2025-06-30 13:34:33 · 27 阅读 · 0 评论 -
39、角膜圆锥检测与面部情绪识别技术研究
本研究探讨了角膜圆锥检测和面部情绪识别的技术与方法。在角膜圆锥检测方面,利用OpenCV提取边缘和掩码图像,并通过ANN、CNN和VGG16三种深度学习模型进行实验,结果显示VGG16在准确率和F1分数上表现最佳。同时,在疫情期间口罩佩戴普遍的背景下,提出了一种基于CNN的面部情绪识别系统(DFERSFM),该系统通过眼睛和额头区域的数据训练实现了较高的识别准确率,并具有应用于人机交互的潜力。原创 2025-06-29 13:04:37 · 19 阅读 · 0 评论 -
38、人脸验证与圆锥角膜检测的技术研究
本博文探讨了人脸验证和圆锥角膜检测的研究方法与成果。人脸验证研究通过使用局部和深度特征提取技术结合PCA和FLD进行特征降维,在大年龄差距的人脸识别中取得了高达96%的匹配率,表明青少年时期的人脸图像可用于可靠的人脸识别。圆锥角膜检测研究则通过应用ANN、CNN和VGG16等深度学习模型,对角膜地形图及其变体进行分析,为圆锥角膜的早期检测提供了新思路。两部分研究均提出了未来的发展方向,包括扩大数据集、优化模型性能以及结合多模态数据分析,以期在各自领域取得更大的突破。原创 2025-06-28 16:45:38 · 17 阅读 · 0 评论 -
37、孟加拉语地名识别与青少年面部验证研究
本研究探讨了孟加拉语地名识别和青少年面部验证两个重要课题。在孟加拉语地名识别方面,利用迁移学习和多种卷积神经网络(CNN)模型进行特征提取与分类,实验结果表明Inception和MobileNet模型在准确率和效率上表现突出。在青少年面部验证方面,通过预处理、特征表示、降维和累积匹配特征四个阶段,结合预训练深度学习模型和统计模式识别技术(如PCA和FLD),实现了对10年年龄差距的面部图像的高准确率验证。两项研究分别在文字识别和生物识别领域提供了创新性的方法和技术支持。原创 2025-06-27 13:51:20 · 25 阅读 · 0 评论 -
36、孟加拉语地名识别:不同CNN架构的比较分析
本文研究了不同卷积神经网络(CNN)架构在孟加拉语地名识别中的应用,将其视为一种手写单词图像识别问题。文章介绍了一种新的孟加拉语单词图像数据集,并通过比较ResNet、MobileNet、InceptionNet、XceptionNet和VGG16等不同CNN架构的性能,展示了其在准确率、模型大小和计算效率方面的特点。实验结果显示,Inception和Xception在识别准确率上表现最佳,而MobileNet则在资源受限场景下具有优势。文章还探讨了未来研究方向,如架构优化、多模态融合和跨语言识别。原创 2025-06-26 14:24:50 · 26 阅读 · 0 评论 -
35、利用低成本传感器技术进行人体步态异常检测
本研究利用低成本的微软Kinect v2传感器结合深度学习技术,提出了一种基于深度图像的步态异常检测方法。通过采集模拟马蹄足步态模式的深度视频数据,并应用直方图分析和图像分割算法,提取步态特征并输入到2D和3D卷积神经网络模型中进行训练和检测。实验结果表明,3D-CNN模型在检测准确率和计算效率方面优于2D-CNN模型,达到95%的测试准确率。该方法在临床应用中具有广泛的前景,为病理步态的自动化检测提供了一种经济高效的解决方案。原创 2025-06-25 16:00:27 · 16 阅读 · 0 评论 -
34、基于YOLO - V2的实时多手势识别系统研究
本文提出了一种基于YOLO-V2的实时多手势识别系统,利用单阶段卷积神经网络架构在无约束环境下实现高精度、高速度的手势检测。通过结合DarkNet-19作为特征提取骨干网络,并使用MITI-HD、NUSHP-II和SENZ-3D数据集进行训练与评估,实验结果表明该模型在IoU0.5时具有高达99.10%的平均精度(AP),且预测时间仅为20ms。文章还对YOLO-V2的损失函数、优化器选择以及未来改进方向进行了深入探讨,展示了其在复杂环境下的鲁棒性和广泛的应用潜力。原创 2025-06-24 15:47:19 · 27 阅读 · 0 评论 -
33、基于FCN的文本行分割与基于深度学习的多手手势精确识别
本文介绍了两种基于深度学习的方法:一种是用于文档图像中文本行分割的全卷积网络(FCN)方法,通过形态学开运算和膨胀运算进行后处理,提高了文本行分离的准确性;另一种是基于YOLO-V2模型的多手手势实时识别方法,具有高精度和低预测时间,适用于复杂环境下的人机交互。两种方法分别在多个数据集上进行了验证,并展示了其在实际应用中的潜力。原创 2025-06-23 09:52:43 · 23 阅读 · 0 评论 -
32、年龄与性别预测及文本行分割技术解析
本博文围绕年龄与性别预测及文本行分割技术展开,详细分析了不同优化器和特征提取器在年龄与性别预测任务中的性能表现,同时提出了一种基于全卷积网络的文本行分割方法,适用于手写和变形文档的处理。研究展示了SENet50_f在预测任务中的优越表现,以及FCN网络在文本行分割中的高适应性和准确性。此外,文章还探讨了模型局限性及改进方向,如数据集平衡性和更多类型文档的应用优化。原创 2025-06-22 16:45:35 · 18 阅读 · 0 评论 -
31、利用深度卷积神经网络和迁移学习进行年龄和性别预测
本文介绍了利用深度卷积神经网络(CNN)和迁移学习进行年龄与性别预测的方法。首先,使用UTKFace数据集构建训练、验证和测试集,并设计了基于可分离卷积层的CNN模型以提高收敛速度和泛化能力。通过对比不同卷积层类型、权重初始化方法以及优化器对模型性能的影响,确定了最优配置。其次,应用迁移学习技术,借助VGG16、ResNet50和SE-ResNet-50等预训练模型提取面部特征,并进一步用于年龄估计和性别分类任务,提升了模型在小规模数据上的表现。实验结果展示了不同方法在年龄估计平均绝对误差(MAE)和分类准原创 2025-06-21 16:07:03 · 18 阅读 · 0 评论 -
30、基于领域知识嵌入的多模态意图分析
本文提出了一种基于领域知识嵌入的多模态意图分析方法,通过融合文本和图像信息,并引入领域特定知识,显著提高了意图分类的准确性。文章设计了两种知识向量生成方法(CKV和PKV),并结合基线多模态模型(BMM)进行实验验证。结果表明,引入领域知识嵌入后,模型在意图分类任务中的精确率、召回率和F1分数均得到显著提升,尤其以BMM + PKV方法表现最佳。此外,文章还探讨了该方法在不同数据集规模下的性能差异以及潜在的应用场景。原创 2025-06-20 11:52:42 · 16 阅读 · 0 评论 -
29、植物识别与AI相机意图分析技术研究
本文探讨了植物识别与AI相机意图分析的技术方法与实验结果。在植物识别部分,比较了空间特征(矩、HOG)、光谱特征(DWT)和机器学习特征(CNN)的性能,结果显示基于CNN的方法准确率最高。在AI相机意图分析方面,提出了一种结合文本、图像和领域知识的多模态深度网络模型,有效提升了意图分类的准确性,并讨论了其应用场景与扩展方向。原创 2025-06-19 14:08:29 · 18 阅读 · 0 评论 -
28、面部遮挡检测与重建及印度阿育吠陀药用植物识别研究
本研究探讨了面部遮挡检测与重建以及印度阿育吠陀药用植物识别的相关技术与方法。在面部遮挡检测部分,采用基于深度卷积生成对抗网络(DCGAN)的图像补全模型,通过单个判别器和多损失函数优化实现高质量的图像修复,并在多个数据集上验证其有效性。针对阿育吠陀药用植物识别,构建了一个公开可用的植物叶子图像数据库MepcoTropicLeaf,并使用六层卷积神经网络进行特征提取与分类,取得了较高的识别准确率。研究为图像修复和植物自动识别提供了实用的技术方案和数据支持。原创 2025-06-18 13:16:59 · 26 阅读 · 0 评论 -
27、移动设备多语言印度文本检测器与面部遮挡检测重建技术
本文探讨了移动设备上的多语言印度文本检测器与基于GAN的面部遮挡检测与重建技术。在文本检测部分,对比了YOLO v3-tiny和YOLO v4-tiny模型在IndicSceneText2017数据集上的性能,结果显示YOLO v4-tiny在准确性和适用性方面表现更优。在面部遮挡处理部分,提出了一种结合地标生成网络和图像补全网络的新架构,有效解决了遮挡带来的识别难题。文章还分析了实验结果,并展望了未来的研究方向,包括多类标注、多方向弯曲文本检测以及更多遮挡类型的实时处理优化。原创 2025-06-17 10:15:48 · 16 阅读 · 0 评论 -
26、板球击球识别与多语言印度文本检测技术解析
本文探讨了两种计算机视觉技术的应用:板球击球识别和多语言印度文本检测。在板球击球识别部分,研究基于视觉词袋(BoV)框架,采用不同特征(如HOOF和OF Grid)并训练SVM分类器,以实现对击球动作的高精度分类。而在多语言印度文本检测方面,则提出了基于YOLO v3-Tiny和YOLO v4-Tiny的轻量级解决方案,通过优化锚框计算、非极大值抑制以及引入BoF和BoS策略,在保证快速推理的同时提高了检测准确率。实验结果表明,这两种技术在各自领域表现优异,具有广泛的实际应用前景,例如体育分析、移动设备文本原创 2025-06-16 13:19:28 · 26 阅读 · 0 评论 -
25、板球击球动作识别:基于硬分配和软分配的视觉词袋方法
本文提出了一种基于硬分配和软分配的视觉词袋(BoV)方法,用于板球击球动作的识别。通过比较不同特征提取方法和分配策略,实验表明方向直方图特征适用于粗略的方向相关识别任务,而网格特征在细粒度分类中表现更好。软分配通常优于硬分配,并且无序的视觉词袋表示对基于方向的动作识别有效。研究结果可用于构建运动员档案、辅助教练分析以及自动事件提取等应用。原创 2025-06-15 14:46:13 · 17 阅读 · 0 评论 -
24、移动设备的轻量级照片级真实风格迁移
本文提出了一种适用于移动设备的轻量级照片级真实风格迁移方法。通过知识蒸馏技术压缩VGG网络,训练轻量级编码器和解码器,显著减少模型参数并保持风格迁移质量。同时,引入基于深度学习的上下文聚合网络(CAN)进行平滑处理,提高真实感。整个方法在移动设备上实现了快速高效的照片级真实风格迁移,为移动图像编辑和实时视频处理提供了新的解决方案。原创 2025-06-14 15:02:24 · 16 阅读 · 0 评论 -
23、基于美学与显著性的移动设备UI布局合成方法
本文提出了一种基于美学与显著性的移动设备UI布局合成方法。通过创建高质量的3×3网格数据集,采用多阶段筛选标注人员和EM算法估计地面真值,并利用Krippendorf's Alpha计算数据一致性以确定目标准确率。在模型构建方面,将问题转化为回归任务并使用logcosh损失函数优化预测结果,结合数据增强提升模型准确率。评估结果显示,MobilenetV2作为特征提取器在准确率、模型大小和推理时间之间达到了良好平衡,用户满意度调查也验证了模型的有效性。未来工作包括模型泛化、动态适应更大网格及拓展至更多应用场景原创 2025-06-13 14:08:10 · 15 阅读 · 0 评论 -
22、创新技术:双梯度特征对人脸识别与动态用户界面合成
本文介绍了两种创新技术:双梯度特征对(DGFP)人脸识别系统和动态用户界面合成方法。DGFP算法通过高效的特征提取和匹配策略,在多个数据集上表现出高识别率和快速响应能力,适用于安防、金融和智能设备领域。动态用户界面合成方法结合美学与显著性分析,实现根据壁纸内容自动调整布局,提升移动设备、虚拟现实和电子商务等场景的用户体验。两种技术均具有广阔的应用前景,并有望在未来科技发展中发挥重要作用。原创 2025-06-12 15:45:25 · 16 阅读 · 0 评论 -
21、手势与面部识别技术:从原理到实践
本文探讨了手势识别与面部识别技术的研究进展与实践成果。在手势识别部分,比较了BiLSTM和GRU模型在不同训练视图下的性能,发现GRU表现更优,并通过混合视图训练提升了识别准确率;在面部识别部分,提出了一种基于双梯度特征对(DGFP)的方法,有效应对年龄和姿势变化带来的挑战,取得了较高的平均识别率。此外,文章还分析了两种技术的影响因素,并展望了其在未来安全、智能交互等领域的应用潜力。原创 2025-06-11 15:24:41 · 15 阅读 · 0 评论 -
20、深度学习在图像增强与手势识别中的应用
本文探讨了深度学习在图像增强和手势识别领域的应用。在图像增强部分,通过与其他方法的对比验证了所提出解决方案的优势,并使用平均意见得分(MoS)和神经图像评估(NIMA)等指标进行量化评估,同时采用PSNR客观衡量图像相似度。在手势识别方面,提出了一种端到端的深度学习方法,利用GRU和BiLSTM模型直接处理原始3D骨骼数据,避免了手工特征提取的需求。实验结果表明,GRU模型在正面视图训练下取得了70.78%的平均准确率,优于现有方法。未来计划探索强化学习、多模态数据融合及实时识别系统的开发。原创 2025-06-10 10:47:55 · 16 阅读 · 0 评论 -
19、深度学习图像增强与黑盒滤波器参数估计的探索
本博客探讨了一种基于深度学习的图像增强方法,并提出了一种黑盒滤波器参数估计技术,使用户能够理解和微调增强过程。受Exposure方法启发,我们引入了三个可微分滤波器(阴影校正、通道平衡和高斯曝光),改善了颜色和色调增强效果。同时,通过基于规则的参数估计算法,将增强操作透明化,让用户获得更个性化的增强体验。实验表明,超过84%的用户更喜欢本文方法的增强结果。原创 2025-06-09 15:53:15 · 51 阅读 · 0 评论 -
18、生成对抗网络用于遗产图像超分辨率重建
本文提出了一种基于改进损失函数优化的生成对抗网络(GAN)模型,用于遗产图像的超分辨率重建(SRR)。通过将输入低分辨率(LR)图像划分为纹理块和非纹理块,并针对不同类型的块设计相应的损失函数(lossTeXP 和 lossNonTeXP),有效解决了传统方法在高频细节保留和过度平滑方面的问题。实验结果表明,该方法在PSNR、SSIM、FSIM等图像质量评估指标以及振铃伪影指数(RI)上均优于现有方法,为遗产图像的数字化保护提供了一种高效且鲁棒的技术方案。原创 2025-06-08 16:00:08 · 14 阅读 · 0 评论 -
17、孟加拉语OCR语料库构建与遗产图像超分辨率重建技术
本文介绍了孟加拉语OCR语料库的构建过程以及基于生成对抗网络(GAN)的遗产图像超分辨率重建技术。在孟加拉语OCR语料库构建中,通过预处理、单词和字符分割、字符识别等步骤,创建了首个完全由机器标注的大型孟加拉语OCR语料库。同时,针对遗产图像的低分辨率问题,提出了结合纹理与非纹理补丁优化的SRRGAN方法,有效提高了图像质量。两者分别在语言识别与文化遗产保护领域具有重要意义,并为未来的技术发展提供了方向。原创 2025-06-07 11:08:53 · 21 阅读 · 0 评论 -
16、基于Nvidia Jetson与Bangla OCR的技术实现及优化
本文探讨了在Nvidia Jetson平台上对立体视觉算法的深度优化,以及构建首个大规模孟加拉语OCR语料库的工作。通过共享内存、CUDA PTX指令集、内存合并和线程优化等技术,SAD、CENSUS和SGM算法实现了数十倍至数百倍的加速,达到实时应用水平。同时,构建了一个近八百五十万个字符的高质量机器注释语料库,为资源匮乏的孟加拉语提供了基础支持。这些成果不仅推动了计算机视觉和自然语言处理的发展,也为无人机避障、自动驾驶和多语言文档识别等领域提供了实际解决方案。原创 2025-06-06 13:55:34 · 16 阅读 · 0 评论