timebeliever-CSDN博客

原创 DINO-R1：视觉prompt和GRQO如何增强视觉模型的推理能力？

DINO-R1基于Grounding-DINO框架，通过新型强化学习策略——GRQO（Group Relative Query Optimization）训练，具有利用视觉prompt引导视觉模型检测推理的能力。截止至2025年7月29日，该工作的代码、模型都没有开源，所以关于视觉prompt和GRQO训练策略在视觉模型上的查询性能和泛化能力犹未可知，只能先从理论的角度分析一下这两者是如何增强视觉模型的推理能力的。

2025-07-29 17:15:21 1124

原创 Qwen2-VL技术报告阅读笔记

Qwen2-VL是阿里巴巴推出的多模态大模型系列，通过创新架构实现图像/视频统一处理。核心技术包括：1）Naive Dynamic Resolution机制，采用2D-RoPE替换传统位置编码，动态调整不同分辨率图像的token数量；2）Multimodal-RoPE位置编码，将旋转位置嵌入扩展到时序+空间三维，统一处理文本/图像/视频的位置信息；3）3D卷积融合视频帧时空特征，将图像视为单帧视频实现模态统一。

2025-07-23 18:07:33 737

原创 Zotero接入大语言模型Qwen翻译

由于Readpaper的翻译功能开始收费且限制文件数量，用户转向Zotero并接入Qwen3 API进行翻译。首先，用户通过阿里云百炼创建API，注册并实名认证后领取免费额度。接着，在Zotero中安装翻译插件，并在设置中添加API，填写接口、模型、温度和Prompt等参数。实际使用中，Qwen3 API响应迅速且翻译准确，满足了用户的学术翻译需求。

2025-05-09 14:57:52 966

原创 Qwen-VL技术报告阅读笔记

阅读Qwen-VL技术报告，虽然是23年的技术报告，但作为入门的新手而言是个不错的学习资料，后续会继续阅读Qwen2-VL以及Qwen2.5-VL的技术报告。在阅读过程中会提出一些问题并努力去理解并回答，如理解有偏颇，欢迎大家指出。

2025-05-08 17:34:05 831

原创大模型显存需求一览：推理、训练、微调分别要多少显存？

2025年4月29日，阿里开源新一代通义千问模型 Qwen3。，一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型，以及，一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外，六个 Dense 模型也已开源，包括和。

2025-05-06 10:00:26 4610

原创 Mediapipe 人眼检测(Bbox)

在微调大模型时想通过在真值中加入目标区域的Bounding Box，从而设计 IoU 奖励函数促使大模型能够更好地关注图像目标区域和文本描述之间的关系，进而学习到有用的参数。刚开始尝试使用3B参数的大模型进行人眼区域的Bbox输出，但效果并不是很好，遂采用Mediapipe。

2025-04-25 15:01:13 491

原创 swift框架lora-grpo训练多模态分类任务-Qwen2-VL-2B

因为使用lora训练，最终的checkpoint文件只包含LoRA适配器的增量权重，Qwen2-VL-2B-Instruct的完整权重仍然存放在预训练模型中，所以需要让LoRA的增量参数合并回主模型，才变得完整且可推理。准确率奖励函数并没有明显的提升，看了一下每一个样本的响应，发现有个影响准确率判别的因素是：数据集中的花朵名词部分为学名、部分为俗称，而样本响应给出的答案有时会给出两个名称，有时响应都给出学名，就比如。是向日葵的学名，而预设的solution只包含。使用ms-swift框架下的。

2025-03-31 16:01:40 3002 5