logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

解密分类模型的核心:Sigmoid与SoftMax的应用与奥秘

不止图片分类,目标检测也用到了,毕竟检测包括定位与分类嘛。

文章图片
#分类#数据挖掘#人工智能 +1
多模态中的交叉注意力Cross Attentionon

CA作为多模态融合的一个重要组成部分,它通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力。

文章图片
#目标检测#计算机视觉#深度学习 +1
深入理解智能体:规划执行与直接行动类 Agent 的比较分析

Agent作为当今人工智能的核心,本部分从笔者的实际使用案例来介绍,并用图例来解释说明。

文章图片
#人工智能#深度学习#自然语言处理
CV中token、Patch Embedding、positional encoding的概念(多模态、ViT、Transformer)

在不同的语境下,术语token等有不同的解释。笔者这里的概念解释基于Google的ViT原文。NLP中,token指的是一个单词word。而CV中,token的概念包含:token、class token、patch token等。

文章图片
#python#计算机视觉#目标检测 +2
OpenAI重磅推出开源模型!gpt-oss-120b与20b全面解析

OpenAI于2025年8月5日推出开源模型GPT-OSS-120B和GPT-OSS-20B,支持微调训练和128k上下文长度。120B模型在推理能力上接近O4-mini..

文章图片
#开源#人工智能#自然语言处理 +1
多模态目标检测

3. 跨模态融合:将「图像特征 Image Feature」和「文本嵌入 Text Embedding」融合起来增强「文本和图像表示 Text and Image Represention」,以便模型更全面地理解目标。2. 文本描述输入:「文本编码器 Text Encoder」接收与图像关联的「文本 Text」并进行编码,得到「文本嵌入 Text Embedding」。1. 视觉信息输入:「图像编

文章图片
#人工智能#机器学习#目标跟踪
多模态目标检测

3. 跨模态融合:将「图像特征 Image Feature」和「文本嵌入 Text Embedding」融合起来增强「文本和图像表示 Text and Image Represention」,以便模型更全面地理解目标。2. 文本描述输入:「文本编码器 Text Encoder」接收与图像关联的「文本 Text」并进行编码,得到「文本嵌入 Text Embedding」。1. 视觉信息输入:「图像编

文章图片
#人工智能#机器学习#目标跟踪
Bug处理:`error: unrecognized arguments: --local-rank=0`

笔者在2025.4.23使用vscode调试ComfyUI的代码时,出现了`error: unrecognized arguments: --local-rank=0`,完成了解决

文章图片
#python#人工智能#机器学习
探索目标检测:边界框与锚框的奥秘

为了方便模型训练,我们人为地将图片中物体的位置与种类标注出来,这就是真实边界框Ground Truth。「Ground Truth」等价于「Ground Truth Bounding Box(GT BBox)」边界框Bounding Box则更多的是一种泛指,它可以指代各个类型的框。

文章图片
#目标检测#人工智能#计算机视觉 +2
一个目标检测新手的LabelImg入门指南:安装与使用技巧

咱们搞目标检测的,肯定得用过labelImg标定数据集吧。这里展示了快速安装方式与正常安装方式,还有基本的快捷键。

文章图片
#目标检测#人工智能#计算机视觉
    共 13 条
  • 1
  • 2
  • 请选择