- 博客(128)
- 收藏
- 关注
原创 上下文工程指南
摘要: 随着AI技术的发展,"提示工程"已演进为更全面的"上下文工程",成为优化大语言模型(LLM)任务执行的关键方法。上下文工程不仅涉及设计指令,还包括动态信息管理、知识检索、格式优化等系统化流程,旨在为模型提供精准的背景信息。以多代理研究应用为例,通过结构化系统提示(如定义子任务ID、查询类型、优先级等字段),展示了如何通过上下文工程提升AI代理的规划能力。这一实践表明,上下文工程是AI开发中不可或缺的迭代优化过程,远超简单的提示设计。
2025-07-07 21:12:58
886
原创 SegChange-R1:基于大型语言模型增强的遥感变化检测
遥感变化检测通过分析同一区域在不同时期的图像来识别地表特征变化,在城市规划、地形分析和环境监测等领域具有重要应用。本文提出了一种基于大型语言模型(LLM)增强推理的方法(SegChange-R1),通过整合文本描述信息,引导模型聚焦于相关变化区域,从而提升检测能力并加速收敛。我们设计了一种基于线性注意力的空间变换模块(BEV),通过将不同时相的特征统一到 BEV 空间中,解决了模态不匹配问题。此外,我们还引入了一个新的无人机视角建筑变化检测数据集 DVCD。在四个广泛使用的数据集上的实验表明,与现有方法相比
2025-06-30 14:18:59
743
原创 牛津大学开源视频中的开放世界目标计数!
牛津大学提出了视频开放世界目标计数的新任务COUNTVID,旨在通过文本或图像提示自动枚举视频中的目标实例。核心贡献包括:1) 扩展CountGD为COUNTGD-BOX,使其输出边界框;2) 设计三阶段处理流程(帧级检测、短期过滤、长期跟踪)解决遮挡和误检问题;3) 构建VIDEOCOUNT评估数据集,包含TAO/MOT20重标注数据及企鹅监测、金属结晶两个科学场景。实验表明COUNTVID显著优于基线方法,准确率达85.3%。该方法在生态监测、材料科学等领域具有应用潜力,代码及数据集已开源。
2025-06-23 15:55:12
993
原创 MonkeyOCR:开源OCR三元组文档解析新范式,轻量秒杀端到端大模型!
MonkeyOCR 采用结构-识别-关系 (SRR) 三元组范式,它简化了模块化方法的多工具管道,同时避免了使用大型多模态模型进行整页文档处理的低效率。与基于管道的方法 MinerU 相比,我们的方法在 9 种中英文文档中实现了 5.1% 的平均改进,其中公式提高了 15.0%,表格提高了 8.6%。与端到端模型相比,我们的 3B 参数模型在英文文档上实现了最佳的平均性能,优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。对于多页文档解析,我们的方法达到了每秒 0.84
2025-06-18 09:34:45
1110
原创 JAFAR Jack up Any Feature at Any Resolution
本文提出JAFAR——一种基于注意力机制的特征上采样方法,能够将任何基础视觉编码器的低分辨率特征上采样至任意目标分辨率。该模型通过非对称设计构建查询(保留高分辨率低级细节)和键(融合高低级特征),利用交叉注意力机制实现语义对齐。创新性地采用低分辨率训练策略(如8×8→32×32)即可泛化到更高分辨率(如32×32→448×448),显著降低计算成本。实验表明,JAFAR在多种下游任务中均优于现有方法,有效恢复细粒度空间细节,且无需高分辨率监督或逐图像优化。
2025-06-17 21:11:08
633
原创 基于视频的 AI 内存库,极速语义检索
Memvid是一款创新性的开源AI记忆管理工具,通过将文本数据编码为MP4视频文件,实现了高效的信息存储与检索。相比传统向量数据库,它具有三大优势:采用视频压缩技术可节省90%存储空间;支持秒级语义搜索;完全离线运行,无需复杂基础设施。安装简单,支持PDF文档处理,提供编码、检索和交互式聊天功能。用户可自定义嵌入模型、视频参数,并支持分布式处理大规模数据。典型应用场景包括与PDF书籍对话、构建知识库等,特别适合需要轻量化部署的AI应用场景。
2025-06-16 09:59:11
597
原创 [CVPR2025]GLASS:Guided Latent Slot Diffusion for Object-Centric Learning
本文提出了一种新的面向对象学习方法GLASS(Guided Latent Slot Diffusion),通过结合语义和实例引导模块,有效解决了现有槽注意力模型在复杂真实场景中的表现问题。GLASS利用预训练扩散解码器生成伪语义掩码作为语义引导,同时使用MLP解码器重构编码器特征作为实例引导,从而改善了槽嵌入质量。实验表明,GLASS在对象发现、条件图像生成等任务上显著优于现有方法,首次实现了对复杂真实场景的组合生成能力。该方法在多个数据集上的性能提升明显(VOC+9%,COCO+5%),并建立了新的FID
2025-06-14 18:23:05
1121
原创 Linux服务器部署n8n实战教程
n8n是一款开源自动化工具,支持低代码/无代码方式构建工作流,具备400+应用集成、AI代理(基于LangChain)和公平代码许可。主要特性包括:JavaScript/Python代码支持、企业级权限管理、900+现成模板和社区支持。安装方式提供Docker部署,通过映射端口5678访问Web界面。针对中文用户,可通过安装i18n插件实现界面汉化,解压文件至指定目录并设置环境变量即可完成本地化。该工具允许用户完全控制数据,支持自托管或云端部署。
2025-06-12 15:53:04
441
原创 Linux服务器安装mamba
Mamba 模型介绍不在这里多说,此文主要讲 Mamba 环境的搭建。简单来说,其核心在于通过输入依赖的方式调整SSM参数,允许模型根据当前的数据选择性地传递或遗忘信息,从而解决了以前模型在处理离散和信息密集型数据(如文本)时的不足。这种改进使得Mamba在处理长序列时展现出更高的效率和性能,并与 `Transformer` 可以打平手的情况下,比 `Transformer` 复杂度更低。
2025-06-12 14:37:53
998
原创 SGFormer:卫星-地面融合 3D 语义场景补全
最近,基于摄像头的解决方案在场景语义补全(SSC)方面得到了广泛探索。尽管它们在可见区域取得了成功,但现有方法由于频繁的视觉遮挡,在捕捉完整场景语义方面存在困难。为了解决这一局限性,本文提出了第一个卫星-地面协同 SSC 框架,即 SGFormer,探索卫星-地面图像对在 SSC 任务中的潜力。具体来说,我们提出了一种双分支架构,并行编码正交的卫星和地面视图,并将它们统一到公共域中。此外,我们设计了一种地面视图引导策略,在特征编码期间纠正卫星图像偏差,解决卫星和地面视图之间的错位。
2025-04-15 16:22:05
1069
原创 vGamba:注意力状态空间瓶颈在视觉识别中有效处理长距离依赖
高效捕获长程依赖关系对视觉识别任务至关重要,但现有方法存在局限。卷积神经网络(CNN)受限于感受野范围,而视觉Transformer(ViT)虽能实现全局上下文建模却计算成本高昂。状态空间模型(SSM)提供了新思路,但其在视觉领域的应用尚未充分探索。本研究提出vGamba混合视觉主干网络,通过整合SSM与注意力机制来提升效率与表征能力。其核心Gamba瓶颈模块包含:适配2D2D2D空间结构的Mamba变体Gamba Cell、多头自注意力机制(MHSA),以及用于特征表征的门控融合模块。
2025-04-10 15:29:15
435
原创 XLRS-Bench:您能否理解极端大型超高分辨率遥感影像?
多模态大型语言模型(MLLMs)的惊人突破需要新的基准来定量评估其能力、揭示其局限性并指示未来的研究方向。然而,在遥感(RS)的背景下,这具有挑战性,因为图像具有超高清分辨率,包含极其复杂的语义关系。现有的基准通常采用明显小于现实世界 RS 场景的图像尺寸,注释质量有限,且评估维度不足。
2025-04-03 14:13:26
1205
原创 RoMA: 基于Mamba的遥感基础模型, 已开源, 首次验证mamba的scaling能力
Mamba模型在遥感领域的应用展示了计算机视觉模型架构创新的广阔前景。
2025-03-27 20:39:52
1033
原创 缺少 CMake,无法安装 dlib
缺少 CMake,无法安装 dlib,出现ERROR: Failed to build installable wheels for some pyproject.toml based projects (dlib)
2025-02-28 10:35:32
469
原创 ragflow-mysql 启动失败案例分析
ragflow-mysql 启动失败案例分析,CPU does not support x86-64-v2 Fatal glibc error: CPU does not support x86-64-v2
2025-02-28 10:21:19
4532
原创 DeepSeek-Janus-Pro-7B模型接入vision-agent后端测试chat前端配置代码
使用gguf/DeepSeek-Janus-Pro-7B作为模型后端的服务接入Vision-Agent,config.py代码
2025-02-25 14:17:04
499
9
原创 Dify客户端异常error: a client-side exception has occurred (see the browser console for more i
bug] Dify客户端异常。
2025-02-25 09:23:41
15547
38
原创 Linux升级Anacodna并配置jupyterLab
在使用 Anaconda 的过程中,随着项目和需求的发展,可能需要升级 Anaconda 的 Base 环境中的 Python 版本。本文将详细介绍如何安全地进行升级,包括步骤、代码示例与最终流程图。
2025-02-18 11:08:33
455
原创 Linux安装cuda和cudnn实战教程
Linux服务器安装cuda和cudnn实战教程,Driver CUDA冲突,`cuDNN` 的多个文件(共享库)不是符号链接
2025-02-17 17:32:14
3910
2
原创 Linux服务器配置onnxruntime-gpu
本文实现 `onnxruntime-gpu` 不依赖于服务器主机上 `cuda` 和 `cudnn`,仅使用虚拟环境中的 `cuda` 依赖包实现 `onnx` `GPU` 推理加速的安装教程。为了适配推理节点,因此我们仅在 `base` 下配置环境,不需要重新创建新的虚拟环境。
2025-01-16 18:04:33
2077
原创 [解决方法]libGL.so.1: cannot open shared object file: No such file or directory
在服务器环境配置尝试导入 `opencv` (`cv2`) 模块时,系统找不到 `libGL.so.1` 这个共享库文件。这个问题通常出现在 `Linux` 系统中,特别是当系统缺少必要的图形库时。
2025-01-16 18:00:26
909
原创 MMDetection安装实战教程
MMDetection 支持在 `Linux`,`Windows` 和 `macOS` 上运行,其实在 `Windows` 和 `Linux` 上配置环境区别不大,建议有条件还是在 `Linux` 上配置,它需要 ` Python 3.7 ` 以上,` CUDA 9.2 ` 以上和 ` PyTorch1.8 ` 及其以上。
2025-01-15 15:52:42
1983
原创 匹配一切新框架!浙大提出MatchAnything:通过大规模预训练实现通用跨模态图像匹配论文解析(中文版)
图像匹配旨在识别图像之间相应的像素位置,在广泛的科学学科中至关重要,有助于图像配准、融合和分析。
2025-01-15 10:20:35
3630
原创 中科院空天院无人机视觉语言导航新基准!AeroVerse:模拟、预训练、微调和评估空中无人机具身世界模型的测试基准
是如何增强无人航空飞行器(UAV)和其他航天平台在四维时空中进行自主感知、认知过程和行动能力,从而实现与人类和环境之间的以自我为中心的活动交互。
2025-01-12 11:40:35
999
原创 GraphReader:基于图的智能体,增强大型语言模型的长文本处理能力
像个善于制作思维导图的导师,将冗长的文本转化为清晰的知识网络,让AI能够像沿着地图探索一样,轻松找到答案需要的各个关键点,有效克服了处理长文本时的"迷路"问题。这篇文章介绍了GraphReader,一种基于图结构的智能体系统,旨在解决大型语言模型(LLMs)处理长文本时遇到的挑战,并在多跳问答等任务上表现出色。
2025-01-09 21:10:30
835
原创 谷歌Agents与基础应用白皮书(中文版)
人类非常擅长处理混乱的模式识别任务。然而,他们通常依赖工具 —— 如书籍、Google 搜索或计算器 —— 来补充他们先前的知识,然后才能得出结论。
2025-01-09 20:47:11
1628
邱锡鹏著 《神经网络与深度学习》案例与实践实验1-5中所需的nndl包
2023-11-10
单级放大电路的搭建与测试
2023-03-22
模拟电子技术实验指导书
2023-03-22
关于已删除文章索引依然存在的问题!
2025-05-14
关于已删除文章索引依然存在的问题!
2025-05-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人