1. 一眼概览
LUD-YOLO 提出了一种基于 YOLOv8 的轻量级小目标检测网络,结合自适应多尺度特征融合和稀疏注意力机制,在保持高检测精度的同时实现高效 UAV 部署。
2. 核心问题
现有 UAV 目标检测面临图像复杂背景、小目标难识别、设备资源受限等问题。如何在有限算力和存储条件下实现高精度的小目标实时检测,是本文关注的关键挑战。
3. 技术亮点
- 自适应多尺度特征融合(AFPN):通过自适应空间融合机制强化多层级语义信息交互,缓解特征传播退化;
- 动态稀疏注意力模块(C2f-BRA):融合稀疏表达与自注意力,实现长距离上下文建模与计算分配优化;
- 网络瘦身(Network Slimming):在保持精度的前提下裁剪不敏感卷积通道,实现极致轻量化模型部署。
4. 方法框架
图片
LUD-YOLO 的结构改进包括三大部分:
• 特征融合改进:在 YOLOv8 的 FPN+PAN 结构中插入 C2→C5 的上采样通路,构建 AFPN,提升低层细节与高层语义信息融合质量;
• 特征提取增强:在 YOLOv8 的 C2f 模块中引入 Biform 模块,通过 Top-k 动态稀疏图机制实现高效注意力;
• 模型轻量化处理:通过 BN 层 L1 正则剪枝卷积通道,结合微调恢复精度,最终获得部署友好型检测模型。
5. 实验结果速览
• VisDrone2019 数据集:LUDY-S 的 mAP 达 41.7%,比 YOLOv5-S 提高 3.2%,且参数仅 10.34M;LUDY-N 更是以 2.81M 参数量实现 35.2% mAP,为同类模型中最轻;
• UAVDT 数据集:LUDY-S mAP 达 86.2%,优于 YOLOv8-s 的 83.1%;
• 对比实验表明:在多种轻量模型中,LUD-YOLO 在 mAP、FPS、模型大小之间取得最佳平衡。
6. 实用价值与应用
LUD-YOLO 适用于无人机在农业巡检、安防监控、交通执法等实际场景中的边缘部署需求,尤其在复杂环境中的小目标检测任务中展现出出色性能与部署价值。
7. 开放问题
• LUD-YOLO 是否可进一步适应少样本或无标注数据场景?
• 动态稀疏注意力机制是否可迁移至视频流中的连续目标跟踪任务?
• 模型剪枝策略是否适用于 Transformer 主干网络?