
深度学习
文章平均质量分 92
伪_装
The data determines the upper limit of accuracy and the model determines the lower limit of accuracy.
数据决定精度上限,模型决定精度下限。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
具有动态类扩展的 Mixture-of-Experts 框架
本文提出了一种基于空间感知门控机制的动态专家混合模型(Dynamic Mixture of Experts with Spatial-aware Gating),用于解决传统变化检测模型在类别扩展时面临的挑战。该方法将每个变化类别建模为独立专家子网络,通过轻量级门控模块动态分配专家组合,实现零重构扩展和增量训练。文章详细介绍了数据集的多掩码二值标注格式(支持类别扩展)、安装步骤、训练/测试命令以及推理流程。该架构具有高度模块化特性,新增类别时只需添加对应专家模块并微调门控网络,无需重构已有模型,显著提升了实原创 2025-07-13 21:26:04 · 704 阅读 · 0 评论 -
SegChange-R1:基于大型语言模型增强的遥感变化检测
遥感变化检测通过分析同一区域在不同时期的图像来识别地表特征变化,在城市规划、地形分析和环境监测等领域具有重要应用。本文提出了一种基于大型语言模型(LLM)增强推理的方法(SegChange-R1),通过整合文本描述信息,引导模型聚焦于相关变化区域,从而提升检测能力并加速收敛。我们设计了一种基于线性注意力的空间变换模块(BEV),通过将不同时相的特征统一到 BEV 空间中,解决了模态不匹配问题。此外,我们还引入了一个新的无人机视角建筑变化检测数据集 DVCD。在四个广泛使用的数据集上的实验表明,与现有方法相比原创 2025-06-30 14:18:59 · 854 阅读 · 0 评论 -
Linux服务器安装mamba
Mamba 模型介绍不在这里多说,此文主要讲 Mamba 环境的搭建。简单来说,其核心在于通过输入依赖的方式调整SSM参数,允许模型根据当前的数据选择性地传递或遗忘信息,从而解决了以前模型在处理离散和信息密集型数据(如文本)时的不足。这种改进使得Mamba在处理长序列时展现出更高的效率和性能,并与 `Transformer` 可以打平手的情况下,比 `Transformer` 复杂度更低。原创 2025-06-12 14:37:53 · 1198 阅读 · 0 评论 -
大语言模型(LLM)面试问题集
这份文档汇总了 50 个关于大型语言模型(LLM)的关键问题,旨在帮助 AI 爱好者和专业人士准备面试。原创 2025-06-08 13:10:09 · 1004 阅读 · 0 评论 -
阿里Qwen3:思深,行速
4 月 29 日早 5 点左右,阿里通义千问团队正式发布 Qwen3 系列开源大模型的最新版本。原创 2025-04-29 17:28:54 · 911 阅读 · 0 评论 -
NVIDIA新模型DAM-3B:描述一切,图像视频局部描述新突破
NVIDIA新模型DAM-3B:描述一切,图像视频局部描述新突破原创 2025-04-28 11:15:46 · 1340 阅读 · 0 评论 -
SGFormer:卫星-地面融合 3D 语义场景补全
最近,基于摄像头的解决方案在场景语义补全(SSC)方面得到了广泛探索。尽管它们在可见区域取得了成功,但现有方法由于频繁的视觉遮挡,在捕捉完整场景语义方面存在困难。为了解决这一局限性,本文提出了第一个卫星-地面协同 SSC 框架,即 SGFormer,探索卫星-地面图像对在 SSC 任务中的潜力。具体来说,我们提出了一种双分支架构,并行编码正交的卫星和地面视图,并将它们统一到公共域中。此外,我们设计了一种地面视图引导策略,在特征编码期间纠正卫星图像偏差,解决卫星和地面视图之间的错位。原创 2025-04-15 16:22:05 · 1124 阅读 · 0 评论 -
vGamba:注意力状态空间瓶颈在视觉识别中有效处理长距离依赖
高效捕获长程依赖关系对视觉识别任务至关重要,但现有方法存在局限。卷积神经网络(CNN)受限于感受野范围,而视觉Transformer(ViT)虽能实现全局上下文建模却计算成本高昂。状态空间模型(SSM)提供了新思路,但其在视觉领域的应用尚未充分探索。本研究提出vGamba混合视觉主干网络,通过整合SSM与注意力机制来提升效率与表征能力。其核心Gamba瓶颈模块包含:适配2D2D2D空间结构的Mamba变体Gamba Cell、多头自注意力机制(MHSA),以及用于特征表征的门控融合模块。原创 2025-04-10 15:29:15 · 454 阅读 · 0 评论 -
XLRS-Bench:您能否理解极端大型超高分辨率遥感影像?
多模态大型语言模型(MLLMs)的惊人突破需要新的基准来定量评估其能力、揭示其局限性并指示未来的研究方向。然而,在遥感(RS)的背景下,这具有挑战性,因为图像具有超高清分辨率,包含极其复杂的语义关系。现有的基准通常采用明显小于现实世界 RS 场景的图像尺寸,注释质量有限,且评估维度不足。原创 2025-04-03 14:13:26 · 1249 阅读 · 0 评论 -
Linux服务器安装MinerU
一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。原创 2025-04-02 17:36:37 · 1475 阅读 · 0 评论 -
Linux服务器配置onnxruntime-gpu
本文实现 `onnxruntime-gpu` 不依赖于服务器主机上 `cuda` 和 `cudnn`,仅使用虚拟环境中的 `cuda` 依赖包实现 `onnx` `GPU` 推理加速的安装教程。为了适配推理节点,因此我们仅在 `base` 下配置环境,不需要重新创建新的虚拟环境。原创 2025-01-16 18:04:33 · 2225 阅读 · 0 评论 -
使用PaddleNLP UIE模型提取上市公司PDF公告关键信息
本项目将演示如何通过PDFPlumber库和PaddleNLP UIE模型,抽取公告中的相关信息。本次任务的PDF内容是破产清算的相关公告,目标是获取受理时间,受理法院,相关公司等内容,作为市场分析的关键数据。原创 2024-02-17 19:04:29 · 1637 阅读 · 0 评论 -
基于BERT模型实现文本相似度计算
在我们的实验中,使用主流的预训练模型BERT,我们成功地实现了文本相似度计算任务。该任务的核心目标是通过BERT模型对输入的两段文本进行处理,并判断它们之间是否具有相似性。BERT模型的双向编码器架构使其能够全面理解文本中的语义关系,而不仅仅是单向的传统模型。通过BERT进行文本相似度计算,我们能够在处理复杂的语境和多义词时取得良好的性能。BERT通过训练过程中的遮蔽语言模型和下一句预测等任务,学习到了丰富的语义表示,这使得它在文本相似度任务中表现出色。原创 2024-01-30 16:09:29 · 3661 阅读 · 2 评论 -
基于BiLSTM-CRF对清华语料文本进行分类
本实验使用BiLSTM-CRF对文本进行分类,最终分类结果达到97%,分类效果较好。LSTM是一种能够对序列数据进行建模的循环神经网络,能够捕捉输入文本的上下文信息。而双向LSTM则是同时考虑正向和反向的上下文信息,进一步提高了模型的上下文信息捕捉能力。RF(Conditional Random Field)是一种无向图模型,能够对序列标注结果进行后验推断,从而更好地处理序列标注问题。在文本分类中,可以将每个单词的特征作为节点,利用CRF进行动态规划解码,找出最优的分类结果。原创 2024-01-30 15:51:46 · 1626 阅读 · 2 评论 -
基于ERNIE3.0模型对小红书评论进行句子级情感分析
本文将基于ERNIE 3.0中文预训练模型对小红书热评进行句子级别情感分析,实现对评论内容输入的文本和输出的每个句子进行对比的情感判断,判断他们具有积极、消极两种情感中的一种。对小红书热门笔记评论进行爬取评论,将得到的评论内容进行预处理、标注(2分类标注和3分类标注)、预处理、分割数据集、导入数据集、加载模型、分词、训练等工作,最后对其模型效果进行测试。原创 2024-01-25 14:25:09 · 4723 阅读 · 22 评论 -
基于SKEP模型和ERNIE模型在情感分析任务上的对比
本文利用千言数据集中ChnSentiCorp酒店评价数据集分别对模型ERNIE_SKEP和模型ERNIE3.0对情感分析任务中的效果进行对比,研究哪种预训练模型的效果更好,最终得到结论:ERNIE3.0模型的效果比ERNIE_SKEP的效果更好,但两者的差别均不是很大。原创 2024-01-21 14:03:12 · 2315 阅读 · 0 评论 -
PaddleNLP评论观点抽取和属性级情感分析
本项目提出了一种细粒度的情感分析能力,对于给定的文本,首先会抽取该文本中的评论观点,然后分析不同观点的情感极性。原创 2024-01-20 13:07:23 · 1831 阅读 · 0 评论 -
音乐人声分离工具:极简的人声和背景音乐分离工具
极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网原创 2024-01-19 19:20:16 · 1628 阅读 · 0 评论 -
情感分析Baseline快速实现
句子级情感分析(NLPCC14-SC,ChnSentiCorp);目标级情感分析(SE-ABSA16_PHNS,SE-ABSA16_CAME);以及观点抽取(COTE-BD,COTE-DP,COTE-MFW)。原创 2024-01-19 15:16:09 · 1089 阅读 · 0 评论 -
IMDB电影评论的情感分析——paddle
自然语言是人类传递信息的一种载体,同时它也能表达人类交流时的一种情感。一段对话或者一句评论都能蕴含着丰富的感情色彩:比如高兴、快乐、喜欢、讨厌、忧伤等等。原创 2024-01-18 19:45:10 · 3115 阅读 · 0 评论 -
基于WEKWS模型的语音唤醒关键词识别
本文所使用的模型网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》,文中研究了将低秩矩阵分解与传统FSMN相结合的紧凑型前馈顺序记忆网络(cFSMN)用于远场关键字检测任务。原创 2024-01-18 19:20:06 · 4969 阅读 · 7 评论 -
基于双向LSTM模型完成文本分类任务
使用 IMDB 电影评论数据集,使用双向 LSTM 对电影评论进行情感分析.原创 2024-01-10 13:45:17 · 1706 阅读 · 0 评论 -
经典神经网络——ResNet模型论文详解及代码复现
经典神经网络——ResNet模型论文详解及代码复现原创 2023-12-01 15:23:21 · 5009 阅读 · 0 评论 -
LeNet对MNIST 数据集中的图像进行分类--keras实现
我们将训练一个卷积神经网络LeNet来对 MNIST 数据库中的图像进行分类原创 2023-12-01 13:23:54 · 386 阅读 · 0 评论 -
BiLSTM-CRF的中文命名实体识别
这段代码定义了一个函数load_data(),用于读取存储在文件'../data_target_pkl/renminddata.pkl'中的数据。这段代码的目的是读取并加载pickle文件中的数据,并在main()函数中测试load_data()函数的正确性。NERDataset类是一个自定义的用于存储命名体识别数据的类,继承自torch.utils.data.Dataset。NERLSTM_CRF类是一个自定义的继承自torch.nn.Module的类,用于实现LSTM_CRF模型的前向传播和训练过程。原创 2023-11-29 20:40:18 · 649 阅读 · 0 评论 -
经典神经网络——AlexNet模型论文详解及代码复现
Alexnet共有8层结构,前5层为卷积层,后三层为全连接层。原创 2023-11-27 18:56:03 · 1693 阅读 · 0 评论 -
CNN对 MNIST 数据集中的图像进行分类
卷积神经网络对 MNIST 数据库中的图像进行分类原创 2023-11-27 17:08:54 · 921 阅读 · 0 评论 -
训练 CNN 对 CIFAR-10 数据中的图像进行分类-keras实现
训练 CNN 对 CIFAR-10 数据中的图像进行分类原创 2023-11-27 16:33:41 · 726 阅读 · 0 评论