极市导读
这是第一个针对微小目标检测的DETR类模型,提出了三大创新模块:类别计数模块、计数引导的特征增强和动态查询选择模块,以提高对微小物体的检测能力。此外,论文还介绍了使用的数据集和模型训练策略,并展示了精度对比和可视化结果。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
题目:DQ-DETR: DETR with Dynamic Query for Tiny Object Detection
会议:The European Conference on Computer Vision 2024 (ECCV)
论文:http://arxiv.org/abs/2404.03507
代码:https://github.com/Katie0723/DQ-DETR (将发布)
年份:2024
年份:2024
DQ-DETR 针对现有的基于DETR的物体检测方法在微小物体检测中的不足,提出了三大创新模块:
类别计数模块(Categorical Counting Module):该模块根据图片中物体数量的分类来动态调整查询数量,解决了不同图片中物体数量不平衡的问题。
计数引导的特征增强(Counting-Guided Feature Enhancement):通过与密度图结合增强微小物体的空间信息,从而提高对微小物体的检测能力。
动态查询选择模块(Dynamic Query Selection):根据图像中的物体密度动态调整查询的数量和位置,减少稀疏图像中的假阳性和密集图像中的漏检问题。
AI-TOD-V2是一个航空图像数据集,用于检测微小物体。
图像数量:该数据集包含28,036张高分辨率航空图像。
标注数量:数据集中共有752,745个物体实例标注。
物体尺寸:平均尺寸为12.7像素。86%的物体尺寸小于16像素,最大物体尺寸不超过64像素。
物体分布:每张图像中的物体数量差异很大,从1个到2667个不等,平均每张图像有24.64个物体,标准差为63.94。数据集中存在大量的稀疏图像和密集图像,这对检测算法提出了挑战。
数据集划分:数据集分为训练集(11,214张图像),验证集(2,804张图像)和测试集(14,018张图像)。
VisDrone数据集包含无人机拍摄的图像,用于评估算法在无人机视角下的目标检测能力。
COCO(Common Objects in Context)是一个通用物体检测数据集,广泛用于目标检测任务的基准测试。本文在COCO数据集上进行了额外的实验,以验证DQ-DETR的泛化能力。
CNN骨干网络:用于提取多尺度特征。
Transformer编码器和解码器:Transformer用于全局特征建模,适用于捕捉图像中的长距离依赖关系。
三个关键模块:
类别计数模块(Categorical Counting Module,CCM)
计数引导的特征增强模块(Counting-Guided Feature Enhancement,CGFE)
动态查询选择模块(Dynamic Query Selection)
该模块用于解决不同图像中物体数量不平衡的问题。具体来说,通过对图像中物体数量的估计,来调整Transformer解码器中使用的查询数量。
该模块通过密度图和视觉特征的结合,增强微小物体的空间信息。主要目的是增强对前景物体的关注,特别是在处理微小物体时,确保Transformer解码器能够更准确地定位它们。
该模块通过动态调整Transformer解码器中的查询数量和查询位置,使模型能够根据图像中的物体密度自适应地处理稀疏或密集的场景。
匈牙利匹配损失:结合了L1损失和广义IoU(GIoU)损失,用于优化边界框的回归任务。同时还采用了Focal Loss作为分类任务的损失函数。
类别计数模块的损失:为了监督物体计数分类任务,采用了交叉熵损失。
总体损失:包括了匈牙利匹配损失、类别计数模块的损失以及解码器的辅助损失。
精度对比
可视化
更多图表分析可见原文
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货