助力AIoT应用：在米尔FPGA开发板上实现Tiny YOLO V4

FPGA

学习如何在 MYIR 的 ZU3EG FPGA 开发板上部署 tiny YOLO v4，对比 FPGA、GPU、CPU 的性能，助力 AIoT 边缘计算应用。

一、 为什么选择 FPGA：应对 7nm 制程与 AI 限制

在全球半导体制程限制和高端 GPU 受限的大环境下，FPGA 成为了中国企业发展的重要路径之一。它可支持灵活的 AIoT 应用，其灵活性与可编程性使其可以在国内成熟的 28nm 工艺甚至更低节点的制程下实现高效的硬件加速。

米尔的 ZU3EG 开发板凭借其可重构架构为 AI 和计算密集型任务提供了支持，同时避免了 7nm 工艺对国产芯片设计的制约。通过在 ZU3EG 上部署 Tiny YOLO V4，我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。

CPU GPU FPGA 架构对比

二、 了解 Tiny YOLO 模型及其适用性

YOLO（You Only Look Once）是一种实时物体检测模型，它通过一次性扫描整个图像，实现高效的对象识别。

而其简化版 Tiny YOLO V4 更适合嵌入式设备，具有较少的层数和参数。其轻量化特性更适合在资源受限的设备上运行，尤其在低功耗、实时检测的边缘计算设备中表现出色。

相比传统 GPU，FPGA 能在小面积和低功耗下实现类似的推理性能，非常契合 AIoT 应用。像米尔 ZU3EG 这样的 FPGA 开发板，通过底板和丰富接口的载板设计，非常适合高效的嵌入式低功耗数据处理。

Yolo V4 网络结构图

Tiny Yolo V4 网络结构图

（通过优化网络结构和参数，保持较高检测精度的同时，降低模型的计算量和内存占用）

三、 获取数据集和模型

可下载开源训练集或预训练模型。为了确保兼容性，建议将模型转换为 ONNX 格式，以便后续能在 FPGA 上完成优化。

1.下载 Tiny YOLO V4 模型：从Darknet 的 GitHub 仓库获取 Tiny YOLO 的预训练权重，或者在 COCO 等数据集上自行训练模型。自定义的模型适用于特定应用场景（如车辆检测、人脸检测等）。2.数据准备：若要自定义模型，可使用 LabelImg 等工具对数据集进行标注，将数据转为 YOLO 格式。之后，可将 YOLO 格式转换为 ONNX 格式，以便兼容 FPGA 优化工具链。

Tiny YOLO 在 Darknet 上训练的截图

四、 通过 Vivado HLS 为 FPGA 准备模型

要将模型部署到 FPGA，需要将神经网络操作转换为硬件级描述。使用 Xilinx 的 Vitis HLS（高级综合）可以将 Tiny YOLO v4 的 C++ 模型代码的转化为 Verilog RTL（寄存器传输级）代码，从而将模型从软件世界带入硬件实现。

详细步骤：

1.模型层映射和优化：