我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第5篇文章,官方发布的文章中,宣称YOLOv6
的精度与速度都远超YOLOv5
和YOLOX
。在部署方面,YOLOv6
支持GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、NCNN)
等不同平台的部署,极大地简化工程部署时的适配工作。
YOLOv6
具体的实现细节大家可以去看官方的文章,这里我就不做过多的介绍了。本文主要介绍如何用TensorRT
部署YOLOv6
(C++
实现)。
实现过程
1. 下载ONNX
模型
YOLOv6
的ONNX
模型可以从下面的链接页面中下载:
https://github.com/meituan/YOLOv6/releases/tag/0.1.0
也可以下载PyTorch
格式的模型文件,然后用官方提供的脚本转换为ONNX
模型:
python deploy/ONNX/export_onnx.py --weights yolov6s.pt --img 640 --batch 1
上面两种方式得到的ONNX
模型最好用onnx-simplifier
工具再处理一下,这样得到的模型会更加精简,看上去会舒服很多。
import onnx
from onnxsim import simplify
model = onnx.load('yolov6s.onnx')
model_simple, check = simplify(model)
assert check, 'Failed to simplify model'
onnx.save(model_simple, 'yolov6s_simplify.onnx')
print('Succeed to simplify model')
2. TensorRT
解析ONNX
模型
这部分的代码跟我之前部署YOLOX
的代码是一样的,感兴趣的可以参考我之前写的文章。
这一步首先判断ONNX
模型对应的.engine
文件是否存在,如果存在就直接从.engine
文件中加载模型,否则就调用TensorRT
的接口去创建一个ONNX
模型解析器解析模型,然后把模型序列化到.engine
文件中方便下次使用。
if (!isFileExists(engine_path)) {
std::cout << "The engine file " << engine_path
<< " has not been generated, try to generate..." << std::endl;
engine_ = SerializeToEngineFile(model_path_, engine_path);
std::cout << "Succeed to generate engine file: " << engine_path
<< std::endl;
} else {
std::cout << "Use the exists engine file: " << engine_path << std::endl;
engine_ = LoadFromEngineFile(engine_path);
}
3. 图像预处理
这里与官方的处理不一样,我做预处理的时候没有对图像去做等比例缩放然后不足的地方再进行填充,而是直接做resize
了:
cv::Mat resize_image;
cv::resize(input_image, resize_image, cv::Size(model_width_, model_height_));
两种预处理方法的对比:
可以看到,直接Resize
会导致图像中的物体变形,所以还是不建议这么做,我这么做是因为比较懒。
Resize
操作后,需要对图像的每个像素除以255
进行归一化,图像数据在内存中要按照CHW
的顺序进行排列。
5. 后处理
与YOLOX
一样,YOLOv6
是一个anchor-free
的目标检测算法,模型还是在3个尺度上去做检测,每一层特征图上的单元格只预测一个框,每个单元格输出的内容是x,y,w,h,objectness
这5个内容再加上每个类别的概率。可以用Netron
看一下模型后面几层的结构:
可以看到,如果模型输入尺寸为640x640
,分别降采样8,16,32
倍后得到的特征图尺寸分别为80x80,40x40,20x20
。由于COCO
数据集有80
个类别所以每个特征图的单元格输出的数据长度为5+80=85
,3个特征图上的结果最终会concat
到一起进行输出,所以最终输出的数据维度为(80x80+40x40+20x20)x85=8400x85
。
需要注意的是,上图红框中的算子是在做后处理操作,就是把x,y,w,h
做相应的操作然后还原回相对于模型输入尺寸的大小。既然这些操作都在推理的时候做了,那我们在得到模型的推理结果后,就只需要进行简单的处理就可以了:
float *ptr = const_cast<float *>(output);
for (int i = 0; i < 8400; ++i, ptr += (kNumClasses + 5)) {
const float objectness = ptr[4];
if (objectness >= kObjectnessThresh) {
const int label =
std::max_element(ptr + 5, ptr + (kNumClasses + 5)) - (ptr + 5);
const float confidence = ptr[5 + label] * objectness;
if (confidence >= confidence_thresh) {
const float bx = (ptr[0]);
const float by = (ptr[1]);
const float bw = ptr[2];
const float bh = ptr[3];
Object obj;
obj.box.x = (bx - bw * 0.5f) / width_scale;
obj.box.y = (by - bh * 0.5f) / height_scale;
obj.box.width = bw / width_scale;
obj.box.height = bh / height_scale;
obj.label = label;
obj.confidence = confidence;
objs->push_back(std::move(obj));
}
}
}
最后,需要对模型输出的结果做非极大值抑制操作以去除重复的框,我是用Soft-NMS
做的。
结果
用yolov6_s.onnx
模型测试的几个结果如下:
在我的GeForce GTX 1050 Ti
显卡上测试各个模型的耗时如下表所示:
模型 | 输入尺寸 | 耗时 |
---|---|---|
yolov6n.onnx | 640×640 | 8 ms |
yolov6t.onnx | 640×640 | 21 ms |
yolov6s.onnx | 640×640 | 23 ms |
顺便把YOLOX
的耗时也贴一下:
模型 | 输入尺寸 | 耗时 |
---|---|---|
yolox_nano.onnx | 640×640 | 8 ms |
yolox_tiny.onnx | 640×640 | 13 ms |
yolox_s.onnx | 640×640 | 18 ms |
yolox_m.onnx | 640×640 | 39 ms |
yolox_l.onnx | 640×640 | 75 ms |
总结
YOLOv6
在YOLOX
的基础上针对BackBone、Neck、Head
以及训练策略等方面做了一些改进,效果还是非常不错的,但是个人觉得还没达到“远超”的水平。对于我这种白嫖党来说,非常乐意看到YOLOX
或者YOLOv6
这样效果好还容易部署的算法开源出来,真心希望这样的工作更多一些,哈哈……