北上ing 个人主页

@qq_34348690

北上ing

2022-11-08 14:03:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

解密分类模型的核心：Sigmoid与SoftMax的应用与奥秘

不止图片分类，目标检测也用到了，毕竟检测包括定位与分类嘛。

#分类 #数据挖掘 #人工智能 +1

多模态中的交叉注意力Cross Attentionon

CA作为多模态融合的一个重要组成部分，它通过注意力机制在不同模块之间建立联系，促进信息的交流和整合，从而提升了模型处理复杂任务的能力。

#目标检测 #计算机视觉 #深度学习 +1

深入理解智能体：规划执行与直接行动类 Agent 的比较分析

Agent作为当今人工智能的核心，本部分从笔者的实际使用案例来介绍，并用图例来解释说明。

#人工智能 #深度学习 #自然语言处理

CV中token、Patch Embedding、positional encoding的概念（多模态、ViT、Transformer）

在不同的语境下，术语token等有不同的解释。笔者这里的概念解释基于Google的ViT原文。NLP中，token指的是一个单词word。而CV中，token的概念包含：token、class token、patch token等。

#python #计算机视觉 #目标检测 +2

OpenAI重磅推出开源模型！gpt-oss-120b与20b全面解析

OpenAI于2025年8月5日推出开源模型GPT-OSS-120B和GPT-OSS-20B，支持微调训练和128k上下文长度。120B模型在推理能力上接近O4-mini..

#开源 #人工智能 #自然语言处理 +1

多模态目标检测

3. 跨模态融合：将「图像特征 Image Feature」和「文本嵌入 Text Embedding」融合起来增强「文本和图像表示 Text and Image Represention」，以便模型更全面地理解目标。2. 文本描述输入：「文本编码器 Text Encoder」接收与图像关联的「文本 Text」并进行编码，得到「文本嵌入 Text Embedding」。1. 视觉信息输入：「图像编

#人工智能 #机器学习 #目标跟踪

多模态目标检测

#人工智能 #机器学习 #目标跟踪

Bug处理：`error: unrecognized arguments: --local-rank=0`

笔者在2025.4.23使用vscode调试ComfyUI的代码时，出现了`error: unrecognized arguments: --local-rank=0`，完成了解决

#python #人工智能 #机器学习

探索目标检测：边界框与锚框的奥秘

为了方便模型训练，我们人为地将图片中物体的位置与种类标注出来，这就是真实边界框Ground Truth。「Ground Truth」等价于「Ground Truth Bounding Box（GT BBox）」边界框Bounding Box则更多的是一种泛指，它可以指代各个类型的框。

#目标检测 #人工智能 #计算机视觉 +2

一个目标检测新手的LabelImg入门指南：安装与使用技巧

咱们搞目标检测的，肯定得用过labelImg标定数据集吧。这里展示了快速安装方式与正常安装方式，还有基本的快捷键。

#目标检测 #人工智能 #计算机视觉

共 13 条

请选择