
多模态
文章平均质量分 94
WiSirius
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM:MoE原理与实现探索
本文介绍了MoE(Mixture of Experts)在大型语言模型中的实现原理与架构设计,以Deepseek模型为例。MoE模块本质上是一个动态选择MLP层的机制,包含64个并行的专家(Expert)和一个路由门(Gate)。每个Expert由三个线性层组成,实现特征变换;Gate模块则通过softmax/sigmoid评分函数动态选择top-k专家进行处理。Deepseek的Transformer架构中,部分FFN层被替换为MoE模块,包含共享专家和路由机制。该设计通过动态激活不同专家提升模型容量,同原创 2025-08-11 20:59:51 · 667 阅读 · 0 评论 -
LLM:位置编码详解与实现
Transformer模型由于注意力机制的特性无法感知序列顺序,因此需要位置编码来弥补这一缺陷。本文介绍了两种主要的位置编码方式:绝对位置编码和相对位置编码。绝对位置编码通过正弦和余弦函数组合为每个位置生成唯一的高维向量,具有周期性、不同频率和任意长度处理的优势。相对位置编码则关注词与词之间的相对距离关系,通过可学习的嵌入表实现,能更好地捕捉局部依赖关系。两种编码方式各有特点:绝对编码计算简单但仅提供位置信息,相对编码表达能力强但计算成本较高。文章还提供了两种编码的PyTorch实现代码,展示了其具体应用方原创 2025-07-05 16:10:38 · 927 阅读 · 0 评论 -
LLM:Scaling Law
各种LLM百花齐放,1B,2B,7B等等预训练模型,但是否思考过模型的大小和训练数据的关系。模型大小和训练数据对模型性能(即测试损失)的贡献是否相等?哪一个更重要?如果我想将测试损失降低10%,我应该增加模型大小还是训练数据?需要增加多少?原创 2025-06-04 18:44:49 · 950 阅读 · 0 评论 -
LLM:decoder-only 思考
本文探讨了decoder-only模型成为主流架构的原因及其关键技术。重点分析了KV-cache机制如何通过缓存历史token的Key/Value显著提升推理效率。对比decoder-only与encoder-decoder架构,前者更适合自回归生成任务,后者更擅长并行处理。文章还区分了Causal LM和Prefix LM两种训练范式的attention mask差异,指出Prefix LM能更好地建模prompt-response关系。尽管decoder-only生态已趋成熟,但其他架构仍有探索空间,只原创 2025-05-29 14:53:14 · 1305 阅读 · 0 评论 -
LLM: 多模态LLM动态分辨率
本文分析了三种常见的VLLM(视觉语言模型)动态分辨率处理策略:Qwen VL、InternVL和Deepseek VL2。Qwen VL通过智能调整图像尺寸,确保其为28的倍数,同时保持宽高比,避免失真,并通过调整最大像素值来优化显存使用。InternVL则预设多种图像比例,选择最接近的比例进行resize,并按448的倍数进行patch切分,生成缩略图。Deepseek VL2借鉴了InternVL的思路,采用动态平铺策略处理不同长宽比的高分辨率图像,结合SigLIP和SAM-B进行特征提取。总体而言,原创 2025-05-20 14:37:32 · 924 阅读 · 0 评论 -
LLM: 探索LLM视觉缺陷
在使用多模态大模型时候是否会发现大模型对图像的细节理解很差,比如让他数数,让他识别理解复杂图像,VLLM给出的答案往往有些不尽人意。其实本质来讲还是幻觉问题!!!原创 2025-04-15 20:43:51 · 628 阅读 · 0 评论 -
LLM:强化学习DPO实现
Deepseek R1把强化学习又提升一个高度,最近也在尝试学习强化学习,在此记录一下DPO的学习过程与实现过程总的来说DPO是一种简单高效的强化学习方法,DPO 直接优化策略,使其输出结果更符合人类或模型的偏好,不再依赖于显式的奖励建模或复杂的策略梯度估计,训练更简单稳定。其主要思想是通过最大化策略对“更优偏好结果”与“较差结果”之间的概率比,从而优化策略。原创 2025-03-11 17:51:00 · 1259 阅读 · 0 评论 -
LLM:BERT or BART 之BART
这次轮到BART了(在了解这两个之前还真分不太清)BERT解读可以参考我之前的文章LLM:BERT or BART 之BERTBART(Bidirectional and Auto-Regressive Transformers)是一种用于文本生成、序列到序列转换和文本填充的深度学习模型,由 Facebook AI 在 2019 年提出。原创 2025-02-14 16:33:49 · 1443 阅读 · 0 评论 -
LLM:BERT or BART 之BERT
NLP选手对这两个应该很熟,最近因为多模态的发展,作为cv选手还是很有必要了解一下这两个模型。这两个模型也算是LLM的先驱了。本文将对BERT做一个基本的介绍BERT是一个encoder-only模型,为NLU任务开发,作为预训练模型可应用于多种语义理解任务上。我觉得其预训练方式绝对是里程碑式的操作,甚至CV后面的MAE也是借鉴它的想法本文对不熟悉BERT的人做个简单介绍,想了解BERT的代码实现和更多应用可以参考原文和开源代码。BERT在NLP领域有着变革性的地位,为后续的研究提供了新的思路!原创 2025-01-26 11:13:24 · 1285 阅读 · 0 评论 -
LLM: AI Mathematical Olympiad (上)
数学推理能力是人工智能的一个重要里程碑。数学推理是解决许多复杂问题的基础,从工程奇迹到复杂的金融模型。然而,目前人工智能在这一领域的能力有限。比赛包括110个类似中级高中数学挑战的问题。这些问题的Gemma 7B基准在公共和私人测试集中的得分是3/50。本次竞赛使用了一个由国际问题解决者团队创建的包含110个新颖数学问题的数据集,认识到需要一个透明和公平的评估框架。该数据集包含一系列难度等级,从简单的算术到代数思维和几何推理。原创 2024-11-14 20:44:30 · 2862 阅读 · 0 评论 -
LLM: AI Mathematical Olympiad (下)
i = idxbreaki += 1整个AI Mathematical Olympiad 项目大概就这样,其实真正核心的point就是数据的丰富多样性,在这个数据驱动的时代,丰富的数据比起模型设计更加重要。作者收集数据的想法和推理的策略都很值得学习。这个推理策略还是很受启发的。原创 2024-11-22 18:51:04 · 1023 阅读 · 0 评论 -
多模态:Florence2论文详解
Florence-2已经放出一段时间了,是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果,无论是描述、目标检测、grounding还是分割。最近在尝试用florence-2用于自己的任务,写个博客详细了解下florence2的具体结构和策略。多模态的出现打通了NLP和CV之间的壁垒,,先进模型展现出了对跨领域和任务的广泛知识的适应能力,只需简单的指令即可。原创 2024-09-29 14:08:50 · 1944 阅读 · 0 评论 -
多模态:Seed-story故事生成
伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。原创 2024-08-12 11:22:41 · 1807 阅读 · 0 评论 -
多模态:Nougat详解
科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!原创 2024-07-09 18:34:22 · 1759 阅读 · 0 评论 -
多模态-大模型:MLLM综述(适用初学)
paper近年来,以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力,如基于图像和无ocr的数学推理编写故事,在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用,包括多模态指令调优(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。原创 2024-06-24 17:49:42 · 3090 阅读 · 0 评论 -
多模态:Vary-toy
Vary的提出让大模型在OCR相关任务的能力有了很大突破,通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足,详情可参考我之前的文章——多模态:Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。原创 2024-03-19 15:00:16 · 1391 阅读 · 0 评论 -
多模态:YOLO-World详解
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。原创 2024-02-26 18:47:45 · 8797 阅读 · 2 评论 -
多模态:CLIP详解
2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的,该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。原创 2024-02-08 13:07:12 · 7998 阅读 · 0 评论 -
多模态:Vary
目前大型视觉语言模型(LVLMs)在视觉处理方面通常使用CLIP来完成的。通过CLIP对图像进行编码,可以涵盖大多数常见的视觉语言任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语场景中,CLIP风格的词汇在标记视觉知识方面可能会遇到效率低的问题,甚至会出现词汇外问题。因此,文章提出了一种有效扩展LVLMs视觉词汇的方法Vary。原创 2024-01-15 20:38:31 · 1876 阅读 · 0 评论 -
多模态:图像分割SAM
图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说,SAM的模型结构说不上十分复杂,但其令人竟然的数据工程和训练方式实在让人赞叹。原创 2024-02-01 18:10:32 · 3098 阅读 · 3 评论