前言
刚刚接触计算机视觉时可能会对不同的任务的区分以及网络架构的选择产生迷惑,因此,在此总结了相关的基础知识。在本文中,我们试图回答两个问题:
- 不同任务要做的事情是什么,研究范畴是什么?
- 不同的任务需要选择什么类型的网络?
分类、检测(定位)、分割(语义和实例)
计算机视觉任务可以分为4大类或3大类,本文根据个人理解,将其分为3大类。任务复杂程度和难度:实例分割>语义分割>物体检测>分类。
首先,先从一张图直观地感受和理解不同任务的区别与联系:

图片来源于知乎张皓: 直观梳理深度学习——计算机视觉四大基本任务
分类任务 (Classification)
分类任务:将图像结构化为某一类别的信息,用事先确定好的类别或实例ID来描述图片。分类任务可以分为:二分类任务、多分类任务。分类任务更关注图片整体的内容描述。
二分类任务:目标类只有两类,即正类或负类;对于每一张输入照片,其中有某物是正类,无某物是负类。输出层为