【今日CV 计算机视觉论文速览 第132期】Tue, 18 Jun 2019

今日CS.CV 计算机视觉论文速览
Tue, 18 Jun 2019
Totally 64 papers
?上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

?****MMDetection, 一个目标检测模型工具箱和代码库,包含了常见的目标检测模型,标准模块和高效的实现。可以为研究人员提供高效灵活的目标检测实现工具。还包含了多GPU的分布式训练实现。(from 港中文、浙大、悉尼大学、商汤、微软亚研、北理理工、南大、华中科技、北大、港科技、中山大学、西北大学(us)、南洋理工)
工具箱支持的模型库与其他代码库比较:
在这里插入图片描述
通用的架构和训练流程:
在这里插入图片描述在这里插入图片描述
code:https://github.com/open-mmlab/mmdetection

?****Image-based 3D Object Reconstruction基于图像的三维重建深度学习实现综述, 从输入数据类型、输出表示、网络架构和训练过程对整个基于图像的三维重建进行了深入的分析,并对100多个模型进行了分析和比较。是一篇较好的单图像三维重建综述文章。(from 天津大学)
在这里插入图片描述

?基于对抗网络的水下图像增强算法, 首先提出了U45水下数据集,同时设计了针对图像和特征的融合特征的损失函数。实现的模型参数较少,速度较快效果较好。(from 南京信息工程大学)
在这里插入图片描述
u45 dataset:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-
rar:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-/blob/master/U45.rar


Daily Computer Vision Papers

MMDetection: Open MMLab Detection Toolbox and Benchmark
Authors Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang, Chen Change Loy, Dahua Lin
我们提供MMDetection,这是一个对象检测工具箱,包含丰富的对象检测和实例分割方法以及相关的组件和模块。该工具箱从MMDet团队的代码库开始,他们赢得了COCO Challenge 2018的检测轨道。它逐渐演变成一个统一的平台,涵盖了许多流行的检测方法和现代模块。它不仅包括训练和推理代码,还为200多种网络模型提供权重。我们相信这个工具箱是迄今为止最完整的检测工具箱。在本文中,我们将介绍此工具箱的各种功能。此外,我们还对不同的方法,组件及其超参数进行了基准研究。我们希望工具箱和基准可以通过提供灵活的工具包来重新实现现有方法并开发自己的新探测器,从而为不断增长的研究社区服务。代码和型号可在以下网站获得

Machine-Assisted Map Editing
Authors Favyen Bastani, Songtao He, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden
今天制定道路网络是劳动密集型的。因此,许多国家的路线图在城市中心以外的覆盖率很低。已经提出了从航空图像和GPS轨迹自动推断道路网络图的系统,以改善道路地图的覆盖范围。但是,由于错误率很高,映射社区尚未采用这些系统。我们提出机器辅助地图编辑,其中自动地图推理被集成到现有的,以人为中心的地图编辑工作流程中。为了实现这一点,我们构建了机器辅助iD MAiD,我们使用机器辅助功能扩展了基于Web的OpenStreetMap编辑器iD。我们用一种新颖的方法来补充MAiD,该方法用于从航拍图像推断道路拓扑,其结合了先前分割方法的速度和先前迭代图形构造方法的准确性。我们设计MAiD来解决在现有地图覆盖率较差的地区增加主要干道,以及在已经绘制主要道路的地区逐步改善覆盖范围。我们进行了两项用户研究,发现当参与者获得固定时间绘制道路时,他们可以使用MAiD增加多达3.5倍的道路。

Particle Swarm Optimization for Great Enhancement in Semi-Supervised Retinal Vessel Segmentation with Generative Adversarial Networks
Authors Qiang Huo
基于深度学习的视网膜血管分割需要大量手动标记数据。这是耗时,费力和专业的。更糟糕的是,获取丰富的眼底图像很困难。由于存在异常,血管的大小和形状不同,不均匀的照射和解剖学变化,这些问题更加严重。在本文中,我们提出了一个数据有效的半监督学习框架,它有效地结合了现有的深度学习网络与GAN和自我培训的想法。针对半监督学习超参数调整的难度,提出了一种基于粒子群优化算法的超参数选择方法。据我们所知,这项工作是第一次将智能优化与半监督学习相结合以实现最佳性能的演示。在对抗性学习,自我训练和PSO的协作下,选择最佳超参数,我们获得的视网膜血管分割的性能接近或甚至优于代表性的监督学习,仅使用来自DRIVE的标记数据的十分之一。

Boosting Supervision with Self-Supervision for Few-shot Learning
Authors Jong Chyi Su, Subhransu Maji, Bharath Hariharan
我们提出了一种技术,通过引入自监督任务作为辅助损失函数来提高在小标记数据集上学习的深度表示的可转移性。虽然最近的自我监督学习方法已经显示了对大型未标记数据集进行培训的好处,但我们发现即使在小型数据集上以及与强有力的监督相结合时,也可以改进泛化。具有自我监督损失的学习表示在几个镜头学习基准上降低了现有技术元学习者的相对错误率,并且在从头开始训练时降低了标准分类任务的现成深度网络。我们发现自我监督的好处随着任务的难度而增加。我们的方法利用数据集中的图像来构建自我监督的损失,因此是学习可转移表示的有效方式,而不依赖于任何外部训练数据。

Exemplar Guided Face Image Super-Resolution without Facial Landmarks
Authors Berk Dogan, Shuhang Gu, Radu Timofte
如今,由于无处不在的视觉媒体,存在大量已经可用的高分辨率HR脸部图像。因此,为了超分辨人的给定的非常低分辨率的LR面部图像,很可能找到可用于指导该过程的同一人的另一个HR面部图像。在本文中,我们提出了一种基于卷积神经网络CNN的解决方案,即GWAInet,它将超分辨率SR应用于由同一个人的另一个无约束HR面部图像引导的面部图像上,可能在年龄,表情,姿势或尺寸。 GWAInet以对抗性生成方式进行训练,以产生所需的高质量感知图像结果。 HR引导图像的利用通过使用将其内容与输入图像对齐的整经器子网络以及对来自弯曲引导图像和输入图像的提取特征的特征融合链的使用来实现。在训练中,身份丢失进一步有助于通过最小化SR和HR地面真实图像的嵌入向量之间的距离来保持身份相关特征。与面部超分辨率的现有技术水平相反,我们的方法不需要用于其训练的面部标志点,这有助于其稳健性并且允许其以均匀的方式为周围的面部区域产生精细的细节。我们的方法GWAInet以升序因子8x产生照片逼真图像,并且在数量和感知质量方面优于现有技术水平。

Towards Real-Time Action Recognition on Mobile Devices Using Deep Models
Authors Chen Lin Zhang, Xin Xin Liu, Jianxin Wu
动作识别是计算机视觉中的一项重要任务,并且开发了许多方法以将其推向极限。然而,当前的动作识别模型具有巨大的计算成本,其不能部署到移动设备上的现实世界任务中。在本文中,我们首先说明实时动作识别的设置,这与当前动作识别推理设置不同。在新的推理设置下,我们根据经验研究了Kinetics数据集上的最新动作识别模型。我们的结果表明,设计高效的实时动作识别模型不同于设计高效的ImageNet模型,尤其是在权重初始化中。我们展示了ImageNet上经过预先训练的权重可以提高实时动作识别设置下的准确性。最后,我们使用手势识别任务作为案例研究来评估我们在移动电话上的实际应用中的紧凑实时动作识别模型。结果表明,我们的动作识别模型速度提高了6倍,并且具有与现有技术相似的精度,可以大致满足移动设备的实时要求。据我们所知,这是第一篇在移动设备上部署当前深度学习动作识别模型的论文。

Semi-Supervised Semantic Mapping through Label Propagation with Semantic Texture Meshes
Authors Radu Alexandru Rosu, Jan Quenzel, Sven Behnke
场景理解是机器人在非结构化环境中行动的重要能力。虽然大多数SLAM方法提供场景的几何表示,但语义地图对于与周围环境的更复杂的交互是必要的。当前的方法将语义映射视为几何的一部分,这限制了可伸缩性和准确性。我们建议将语义地图表示为几何网格和以独立分辨率耦合的语义纹理。关键的想法是,在许多环境中,几何形状可以大大简化而不会失去保真度,而语义信息可以以更高的分辨率存储,而与网格无关。我们从深度传感器构造网格以表示场景几何,并将信息融合到来自场景的各个RGB视图的分段的语义纹理中。使语义在全局网格中持久化使我们能够强制执行各个视图预测的时间和空间一致性。为此,我们提出了一种通过迭代地重新训练语义分割与存储在地图内的信息并使用重新训练的分割来重新融合语义来在各个分割之间建立共识的有效方法。我们通过重建来自NYUv2的场景的语义地图和跨越大型建筑物的场景来展示我们的方法的准确性和可扩展性。

Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019
Authors Zhaofan Qiu, Dong Li, Yehao Li, Qi Cai, Yingwei Pan, Ting Yao
本笔记本文件介绍了我们为ActivityNet Challenge 2019修剪动作识别,视频中的密集字幕事件和时空动作本地化中的以下三个任务而设计的系统的概述和比较分析。

Hallucinated Adversarial Learning for Robust Visual Tracking
Authors Qiangqiang Wu, Zhihui Chen, Lin Cheng, Yan Yan, Bo Li, Hanzi Wang
人类可以从一个单一的范例中轻松地学习新的概念,这主要是因为他们具有非凡的想象力或幻觉能够在不同环境中看不见的样本。结合这种对被跟踪实例的各种新样本产生幻觉的能力可以帮助跟踪器减轻低数据跟踪状态中的过度拟合问题。为实现这一目标,我们提出了一种有效的对抗方法,表示为对抗性幻觉AH,用于稳健的视觉跟踪。所提出的AH被设计为首先在一对相同的身份实例之间学习可转移的非线性变形,然后将这些变形应用于看不见的跟踪实例,以便生成不同的正训练样本。通过通过检测框架将AH结合到在线跟踪中,我们提出了幻觉对抗跟踪器HAT,其以端对端方式联合优化AH与在线分类器,例如MDNet。此外,提出了一种新颖的选择性变形转移SDT方法,以更好地选择更适合转移的变形。对3个流行基准测试的广泛实验表明,我们的HAT实现了最先进的性能。

Multi-Scale Convolutions for Learning Context Aware Feature Representations
Authors Nikolai Ufer, Kam To Lui, Katja Schwarz, Paul Warkentin, Bj rn Ommer
寻找语义对应是一个具有挑战性的问题。随着CNN的突破,更强的功能可用于分类等任务,但不是专门针对语义匹配的要求。在下文中,我们提出了一种弱监督的度量学习方法,通过编码比以前的方法更多的上下文来生成更强的特征。首先,我们使用几何通知的对应挖掘方法生成更合适的训练数据,该方法不太容易进行虚假匹配,并且仅需要图像类别标签作为监督。其次,我们引入了一个新的卷积层,它是不同步幅卷积的学习混合,允许网络隐式编码更多上下文,同时保持匹配精度。特征方面的强几何编码使我们能够学习语义流网络,该网络比基于参数变换的模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值