伪_装-CSDN博客

原创上下文工程指南

摘要：随着AI技术的发展，"提示工程"已演进为更全面的"上下文工程"，成为优化大语言模型（LLM）任务执行的关键方法。上下文工程不仅涉及设计指令，还包括动态信息管理、知识检索、格式优化等系统化流程，旨在为模型提供精准的背景信息。以多代理研究应用为例，通过结构化系统提示（如定义子任务ID、查询类型、优先级等字段），展示了如何通过上下文工程提升AI代理的规划能力。这一实践表明，上下文工程是AI开发中不可或缺的迭代优化过程，远超简单的提示设计。

2025-07-07 21:12:58 886

原创 SegChange-R1：基于大型语言模型增强的遥感变化检测

遥感变化检测通过分析同一区域在不同时期的图像来识别地表特征变化，在城市规划、地形分析和环境监测等领域具有重要应用。本文提出了一种基于大型语言模型（LLM）增强推理的方法（SegChange-R1），通过整合文本描述信息，引导模型聚焦于相关变化区域，从而提升检测能力并加速收敛。我们设计了一种基于线性注意力的空间变换模块（BEV），通过将不同时相的特征统一到 BEV 空间中，解决了模态不匹配问题。此外，我们还引入了一个新的无人机视角建筑变化检测数据集 DVCD。在四个广泛使用的数据集上的实验表明，与现有方法相比

2025-06-30 14:18:59 743

原创牛津大学开源视频中的开放世界目标计数！

牛津大学提出了视频开放世界目标计数的新任务COUNTVID，旨在通过文本或图像提示自动枚举视频中的目标实例。核心贡献包括：1) 扩展CountGD为COUNTGD-BOX，使其输出边界框；2) 设计三阶段处理流程（帧级检测、短期过滤、长期跟踪）解决遮挡和误检问题；3) 构建VIDEOCOUNT评估数据集，包含TAO/MOT20重标注数据及企鹅监测、金属结晶两个科学场景。实验表明COUNTVID显著优于基线方法，准确率达85.3%。该方法在生态监测、材料科学等领域具有应用潜力，代码及数据集已开源。

2025-06-23 15:55:12 993

原创 MonkeyOCR:开源OCR三元组文档解析新范式，轻量秒杀端到端大模型！

MonkeyOCR 采用结构-识别-关系（SRR）三元组范式，它简化了模块化方法的多工具管道，同时避免了使用大型多模态模型进行整页文档处理的低效率。与基于管道的方法 MinerU 相比，我们的方法在 9 种中英文文档中实现了 5.1% 的平均改进，其中公式提高了 15.0%，表格提高了 8.6%。与端到端模型相比，我们的 3B 参数模型在英文文档上实现了最佳的平均性能，优于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。对于多页文档解析，我们的方法达到了每秒 0.84

2025-06-18 09:34:45 1110

原创 JAFAR Jack up Any Feature at Any Resolution

本文提出JAFAR——一种基于注意力机制的特征上采样方法，能够将任何基础视觉编码器的低分辨率特征上采样至任意目标分辨率。该模型通过非对称设计构建查询（保留高分辨率低级细节）和键（融合高低级特征），利用交叉注意力机制实现语义对齐。创新性地采用低分辨率训练策略（如8×8→32×32）即可泛化到更高分辨率（如32×32→448×448），显著降低计算成本。实验表明，JAFAR在多种下游任务中均优于现有方法，有效恢复细粒度空间细节，且无需高分辨率监督或逐图像优化。

2025-06-17 21:11:08 633

原创基于视频的 AI 内存库，极速语义检索

Memvid是一款创新性的开源AI记忆管理工具，通过将文本数据编码为MP4视频文件，实现了高效的信息存储与检索。相比传统向量数据库，它具有三大优势：采用视频压缩技术可节省90%存储空间；支持秒级语义搜索；完全离线运行，无需复杂基础设施。安装简单，支持PDF文档处理，提供编码、检索和交互式聊天功能。用户可自定义嵌入模型、视频参数，并支持分布式处理大规模数据。典型应用场景包括与PDF书籍对话、构建知识库等，特别适合需要轻量化部署的AI应用场景。

2025-06-16 09:59:11 597

原创 [CVPR2025]GLASS:Guided Latent Slot Diffusion for Object-Centric Learning

本文提出了一种新的面向对象学习方法GLASS（Guided Latent Slot Diffusion），通过结合语义和实例引导模块，有效解决了现有槽注意力模型在复杂真实场景中的表现问题。GLASS利用预训练扩散解码器生成伪语义掩码作为语义引导，同时使用MLP解码器重构编码器特征作为实例引导，从而改善了槽嵌入质量。实验表明，GLASS在对象发现、条件图像生成等任务上显著优于现有方法，首次实现了对复杂真实场景的组合生成能力。该方法在多个数据集上的性能提升明显（VOC+9%，COCO+5%），并建立了新的FID

2025-06-14 18:23:05 1121

原创 Linux服务器部署n8n实战教程

n8n是一款开源自动化工具，支持低代码/无代码方式构建工作流，具备400+应用集成、AI代理（基于LangChain）和公平代码许可。主要特性包括：JavaScript/Python代码支持、企业级权限管理、900+现成模板和社区支持。安装方式提供Docker部署，通过映射端口5678访问Web界面。针对中文用户，可通过安装i18n插件实现界面汉化，解压文件至指定目录并设置环境变量即可完成本地化。该工具允许用户完全控制数据，支持自托管或云端部署。

2025-06-12 15:53:04 441

原创 Linux服务器安装mamba

Mamba 模型介绍不在这里多说，此文主要讲 Mamba 环境的搭建。简单来说，其核心在于通过输入依赖的方式调整SSM参数，允许模型根据当前的数据选择性地传递或遗忘信息，从而解决了以前模型在处理离散和信息密集型数据（如文本）时的不足。这种改进使得Mamba在处理长序列时展现出更高的效率和性能，并与 `Transformer` 可以打平手的情况下，比 `Transformer` 复杂度更低。

2025-06-12 14:37:53 998

原创大语言模型（LLM）面试问题集

这份文档汇总了 50 个关于大型语言模型（LLM）的关键问题，旨在帮助 AI 爱好者和专业人士准备面试。

2025-06-08 13:10:09 969

原创阿里Qwen3：思深，行速

4 月 29 日早 5 点左右，阿里通义千问团队正式发布 Qwen3 系列开源大模型的最新版本。

2025-04-29 17:28:54 888

原创 NVIDIA新模型DAM-3B：描述一切，图像视频局部描述新突破

NVIDIA新模型DAM-3B：描述一切，图像视频局部描述新突破

2025-04-28 11:15:46 1284

原创 SGFormer：卫星-地面融合 3D 语义场景补全

最近，基于摄像头的解决方案在场景语义补全（SSC）方面得到了广泛探索。尽管它们在可见区域取得了成功，但现有方法由于频繁的视觉遮挡，在捕捉完整场景语义方面存在困难。为了解决这一局限性，本文提出了第一个卫星-地面协同 SSC 框架，即 SGFormer，探索卫星-地面图像对在 SSC 任务中的潜力。具体来说，我们提出了一种双分支架构，并行编码正交的卫星和地面视图，并将它们统一到公共域中。此外，我们设计了一种地面视图引导策略，在特征编码期间纠正卫星图像偏差，解决卫星和地面视图之间的错位。

2025-04-15 16:22:05 1069

原创 vGamba：注意力状态空间瓶颈在视觉识别中有效处理长距离依赖

高效捕获长程依赖关系对视觉识别任务至关重要，但现有方法存在局限。卷积神经网络(CNN)受限于感受野范围，而视觉Transformer(ViT)虽能实现全局上下文建模却计算成本高昂。状态空间模型(SSM)提供了新思路，但其在视觉领域的应用尚未充分探索。本研究提出vGamba混合视觉主干网络，通过整合SSM与注意力机制来提升效率与表征能力。其核心Gamba瓶颈模块包含：适配2D2D2D空间结构的Mamba变体Gamba Cell、多头自注意力机制(MHSA)，以及用于特征表征的门控融合模块。

2025-04-10 15:29:15 435

原创 XLRS-Bench：您能否理解极端大型超高分辨率遥感影像？

多模态大型语言模型（MLLMs）的惊人突破需要新的基准来定量评估其能力、揭示其局限性并指示未来的研究方向。然而，在遥感（RS）的背景下，这具有挑战性，因为图像具有超高清分辨率，包含极其复杂的语义关系。现有的基准通常采用明显小于现实世界 RS 场景的图像尺寸，注释质量有限，且评估维度不足。

2025-04-03 14:13:26 1205

原创 Linux服务器北京时区设置

Linux服务器北京时区设置

2025-04-03 10:56:15 595

原创 Linux服务器部署vLLM环境实战教程

适用于 LLM 的高吞吐量和内存高效推理和服务引擎vLLM环境部署

2025-04-02 17:41:50 1913 2

原创 Linux服务器安装MinerU

一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

2025-04-02 17:36:37 1346

原创 RoMA: 基于Mamba的遥感基础模型, 已开源, 首次验证mamba的scaling能力

Mamba模型在遥感领域的应用展示了计算机视觉模型架构创新的广阔前景。

2025-03-27 20:39:52 1033

原创 Linux服务器安装Oracle客户端

Linux服务器安装Oracle客户端

2025-03-20 10:12:27 795

原创 HuggingFace模型下载指南

HuggingFace模型下载指南

2025-03-06 11:34:19 1953 3

原创阿里深夜开源QwQ-32B模型，仅需1/10的成本即可比肩R1满血版

凌晨3点，阿里开源了他们全新的推理模型。

2025-03-06 11:03:28 1181

原创 Linux服务器部署Deepseek、Dify、RAGflow实战教程

Linux服务器部署Deepseek、Dify、RAGflow实战教程

2025-03-02 20:56:24 2448

原创 Linux服务器RedHat安装Docker

Linux安装Docker，并配置本地镜像源和yum国内镜像源

2025-03-02 20:49:42 774

原创 Linux服务器安装cuda和cudnn实战教程

Linux服务器安装cuda和cudnn实战教程

2025-03-01 09:44:02 3615

原创 Windows Server 2016系统安装docker

Windows Server 2016系统安装docker

2025-03-01 09:34:37 2492

原创缺少 CMake，无法安装 dlib

缺少 CMake，无法安装 dlib，出现ERROR: Failed to build installable wheels for some pyproject.toml based projects (dlib)

2025-02-28 10:35:32 469

原创 ragflow-mysql 启动失败案例分析

ragflow-mysql 启动失败案例分析，CPU does not support x86-64-v2 Fatal glibc error: CPU does not support x86-64-v2

2025-02-28 10:21:19 4532

原创 DeepSeek-Janus-Pro-7B模型接入vision-agent后端测试chat前端配置代码

使用gguf/DeepSeek-Janus-Pro-7B作为模型后端的服务接入Vision-Agent，config.py代码

2025-02-25 14:17:04 499 9

原创 Dify客户端异常error: a client-side exception has occurred (see the browser console for more i

bug] Dify客户端异常。

2025-02-25 09:23:41 15547 38

原创 Linux常用命令

Linux常用命令大全

2025-02-18 11:22:56 853

原创 Linux升级Anacodna并配置jupyterLab

在使用 Anaconda 的过程中，随着项目和需求的发展，可能需要升级 Anaconda 的 Base 环境中的 Python 版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。

2025-02-18 11:08:33 455

原创 Linux安装cuda和cudnn实战教程

Linux服务器安装cuda和cudnn实战教程，Driver CUDA冲突，`cuDNN` 的多个文件（共享库）不是符号链接

2025-02-17 17:32:14 3910 2

原创 Linux服务器配置onnxruntime-gpu

本文实现 `onnxruntime-gpu` 不依赖于服务器主机上 `cuda` 和 `cudnn`，仅使用虚拟环境中的 `cuda` 依赖包实现 `onnx` `GPU` 推理加速的安装教程。为了适配推理节点，因此我们仅在 `base` 下配置环境，不需要重新创建新的虚拟环境。

2025-01-16 18:04:33 2077

原创 [解决方法]libGL.so.1: cannot open shared object file: No such file or directory

在服务器环境配置尝试导入 `opencv` (`cv2`) 模块时，系统找不到 `libGL.so.1` 这个共享库文件。这个问题通常出现在 `Linux` 系统中，特别是当系统缺少必要的图形库时。

2025-01-16 18:00:26 909

原创 MMDetection安装实战教程

MMDetection 支持在 `Linux`，`Windows` 和 `macOS` 上运行，其实在 `Windows` 和 `Linux` 上配置环境区别不大，建议有条件还是在 `Linux` 上配置，它需要 ` Python 3.7 ` 以上，` CUDA 9.2 ` 以上和 ` PyTorch1.8 ` 及其以上。

2025-01-15 15:52:42 1983

原创匹配一切新框架！浙大提出MatchAnything：通过大规模预训练实现通用跨模态图像匹配论文解析(中文版）

图像匹配旨在识别图像之间相应的像素位置，在广泛的科学学科中至关重要，有助于图像配准、融合和分析。

2025-01-15 10:20:35 3630

原创中科院空天院无人机视觉语言导航新基准！AeroVerse：模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

是如何增强无人航空飞行器（UAV）和其他航天平台在四维时空中进行自主感知、认知过程和行动能力，从而实现与人类和环境之间的以自我为中心的活动交互。

2025-01-12 11:40:35 999

原创 GraphReader:基于图的智能体，增强大型语言模型的长文本处理能力

像个善于制作思维导图的导师，将冗长的文本转化为清晰的知识网络，让AI能够像沿着地图探索一样，轻松找到答案需要的各个关键点，有效克服了处理长文本时的"迷路"问题。这篇文章介绍了GraphReader，一种基于图结构的智能体系统，旨在解决大型语言模型（LLMs）处理长文本时遇到的挑战，并在多跳问答等任务上表现出色。

2025-01-09 21:10:30 835

原创谷歌Agents与基础应用白皮书（中文版）

人类非常擅长处理混乱的模式识别任务。然而，他们通常依赖工具 —— 如书籍、Google 搜索或计算器 —— 来补充他们先前的知识，然后才能得出结论。

2025-01-09 20:47:11 1628

邱锡鹏著《神经网络与深度学习》案例与实践实验1-5中所需的nndl包

如出现如下问题均可导入nndl包均可解决，将nndl包导入同级目录里面解压即可，或者放入虚拟环境...\Anaconda\envs\paddle\Lib\site-packages中 1、实验中出现from nndl.dataset import load_data报错的 2、No module named 'nndl' 3、运行是显示ModuleNotFoundError: No module named 'nndl' 去下载nndl这个模块的时候显示没有

2023-11-10