Dorapocket
moveonmoveonmoveonmoveon
Dorapocket

Xilinx Vitis AI量化部署Yolov5至DPU (PYNQ)

Xilinx Vitis AI量化部署Yolov5至DPU (PYNQ)

概要

本文章记述了从YOLOv5源代码使用Xilinx Vitis AI进行量化并部署到DPU上的全流程。在开Pynq环境下运行测试通过。

环境

主机: Ubuntu 22.04 + Vivado 2022.2 + Vitis AI 2.5.0 (使用Docker安装)+ CUDA 11.3

开发板:Xilinx Kria KV260 + Pynq 3.0 + DPU Pynq 2.5.1

warning 版本是很重要的!
本代码使用Pynq作为程序界面,因此DPU-PYNQ的版本支持性决定了大多数的版本需求。Ubuntu和Vivado的版本一般来讲没有关系,但要注意Vivado是否支持Kria的芯片型号。截止本文发文时,DPU-PYNQ的包版本为2.5.1,在官方描述中只支持到Vitis AI 2.5.0 和Pynq 3.0。笔者经过测试发现在最新的Vitis AI 3.0.0量化编译出来的xmodel没有办法被DPU-PYNQ调用,具体体现为python kernel直接挂掉且没有报错信息,Vitis AI 2.5.0就没有这个问题。

量化模型

在如下Vitis AI的Github官方仓库中有很多模型的运行表现,并有很多已经量化好的模型供测试,位于model zoo文件夹下,并且官方对常见的模型进行了benchmark,使用方法详见文档

再开始之前,我们要先clone一下Vitis AI的仓库,下面的操作都是在Vitis AI仓库的根目录执行的

git clone Xilinx/Vitis-AI

安装Vitis AI环境

先给出官方文档,比较推荐的方式是采用Docker安装。

如果你只想安装一个CPU版本的Vitis AI用于编译用途,事情就简单了,Xilinx为CPU平台已经构建了Docker Image, 在Ubuntu安装好Docker后直接运行以下指令就好了(安装Docker的方式请参阅网上其他教程):

docker pull xilinx/vitis-ai-<Framework>-<Arch>:<Version>

其中,预构建支持的Framework和Arch如下:

Desired Docker<Framework><Arch>
PyTorch cpu-onlypytorchcpu
TensorFlow 2 cpu-onlytensorflow2cpu
TensorFlow 1.15 cpu-onlytensorflowcpu
PyTorch ROCmpytorchrocm
TensorFlow 2 ROCmtensorflow2rocm
PyTorch with AI Optimizer ROCmopt-pytorchrocm
TF2 with AI Optimizer ROCmopt-tensorflow2rocm
预构建Docker镜像支持列表

注意这里的Version一定要考虑其他依赖支不支持这个版本的Vitis AI,别上来直接latest。本文中拉取Pytorch的CPU版镜像(2.5.0)用于编译,运行

docker pull xilinx/vitis-ai-pytorch-cpu:2.5.0

但是,如果你想使用起来电脑上NVIDIA GPU的CUDA核,就要采取一些复杂的操作了,需要用Xilinx的Dockerfile构建自己的镜像。可以参见这里的官方文档。(可能需要修改Dockerfile适应中国大陆网络)

进入Vitis AI根目录,修改一下docker_run.sh

找到docker_run_params , 删掉不存在的挂载参数

    # -v /opt/xilinx/dsa:/opt/xilinx/dsa \
    # -v /opt/xilinx/overlaybins:/opt/xilinx/overlaybins \

执行下面指令即可进入Vitis AI环境:

./docker_run.sh xilinx/vitis-ai-pytorch-cpu:latest
https://lgyserver.top/wp-content/uploads/2023/05/image.png
Vitis AI

如果你没有修改过其他参数,那么Docker内的/workspace目录就是主机的Vitis-AI仓库根目录。

量化编译yolov5

该部分可参考UG1414文档。大体流程如下:

https://lgyserver.top/wp-content/uploads/2023/05/image-1.png
https://lgyserver.top/wp-content/uploads/2023/05/image-2.png

首先克隆原始的Yolov5仓库,这里用的是ultralytics/yolov5,虽然ultralytics/ultralytics也有yolov5,但因为增加了很多训练trick,导致源代码比较难修改,故采用前者。

克隆完后,安装所需要的依赖

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

修改模型

关于yolov5模型结构的介绍有很多,在此不一一介绍,一个比较显著的特点是,yolov5调整了激活函数,由ReLU改为了SiLU,但SiLU函数是不被DPU支持的,因此在训练之前,需要把激活函数换成ReLU或者LeakyReLU,找到yolov5仓库下的models文件夹,修改目标网络的yaml文件,加上以下文字:

act: nn.ReLU()

训练&finetune

可以参考yolov5仓库下的说明文档,在其他机器上训练好或者finetune好导出成pytorch的pt文件即可。

量化

模型的量化可以参考Vitis-AI给出的demo, 可以看到量化分为calib和test两步,calib负责生成模型校准信息,test负责量化后xmodel的导出。

量化之前,需要对yolov5的代码再做一点修改,官方文档中指出量化模型应该仅包含forward方法,但在yolov5的源文件中(models/yolo.py),可以看到以下代码

    def forward(self, x):
        z = []  # inference output
        for i in range(self.nl):
            x[i] = self.m[i](x[i])  # conv
            bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:  # inference
                if self.dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                if isinstance(self, Segment):  # (boxes + masks)
                    xy, wh, conf, mask = x[i].split((2, 2, self.nc + 1, self.no - self.nc - 5), 4)
                    xy = (xy.sigmoid() * 2 + self.grid[i]) * self.stride[i]  # xy
                    wh = (wh.sigmoid() * 2) ** 2 * self.anchor_grid[i]  # wh
                    y = torch.cat((xy, wh, conf.sigmoid(), mask), 4)
                else:  # Detect (boxes only)
                    xy, wh, conf = x[i].sigmoid().split((2, 2, self.nc + 1), 4)
                    xy = (xy * 2 + self.grid[i]) * self.stride[i]  # xy
                    wh = (wh * 2) ** 2 * self.anchor_grid[i]  # wh
                    y = torch.cat((xy, wh, conf), 4)
                z.append(y.view(bs, self.na * nx * ny, self.no))

        return x if self.training else (torch.cat(z, 1),) if self.export else (torch.cat(z, 1), x)

这段代码在inference的时候,将预测的xy相对位置加上了grid坐标乘以stride来映射回原图,返回一个检测头的输出。但在这些步骤应该属于后处理的一部分,在量化的时候需要删掉,仅仅保留最纯正的网络输出x就可以了。

def forward(self, x):
        z = []  # inference output
        for i in range(self.nl):
            x[i] = self.m[i](x[i])  # conv
            bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
            if self.grid[i].shape[2:4] != x[i].shape[2:4]:
                self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)
        return x

修改完后就可以开始写量化程序了,调用vai_q_pytorch的包可以很轻松的完成这一点,

import os
import sys
import argparse
import random
import torch
import torchvision
import torch.nn as nn
import torch.nn.functional as F
from pytorch_nndct.apis import torch_quantizer, dump_xmodel
from common import *

from models.common import DetectMultiBackend
from models.yolo import Model

DIVIDER = '-----------------------------------------'

def quantize(build_dir,quant_mode,batchsize):

  dset_dir = build_dir + '/dataset'
  float_model = build_dir + '/float_model'
  quant_model = build_dir + '/quant_model'

  # use GPU if available   
  if (torch.cuda.device_count() > 0):
    print('You have',torch.cuda.device_count(),'CUDA devices available')
    for i in range(torch.cuda.device_count()):
      print(' Device',str(i),': ',torch.cuda.get_device_name(i))
    print('Selecting device 0..')
    device = torch.device('cuda:0')
  else:
    print('No CUDA devices available..selecting CPU')
    device = torch.device('cpu')

  # load trained model
  model = DetectMultiBackend("./v5n_ReLU_best.pt", device=device)

  # force to merge BN with CONV for better quantization accuracy
  optimize = 1

  # override batchsize if in test mode
  if (quant_mode=='test'):
    batchsize = 1
  
  rand_in = torch.randn([batchsize, 3, 960, 960])
  quantizer = torch_quantizer(quant_mode, model, (rand_in), output_dir=quant_model) 
  quantized_model = quantizer.quant_model

  # create a Data Loader
  test_dataset = CustomDataset('../../train/JPEGImages',transform=test_transform)

  test_loader = torch.utils.data.DataLoader(test_dataset,
                                            batch_size=batchsize, 
                                            shuffle=False)

  t_loader = torch.utils.data.DataLoader(test_dataset,
                                            batch_size=1 if quant_mode == 'test' else 10, 
                                            shuffle=False)

  # evaluate 
  test(quantized_model, device, t_loader)

  # export config
  if quant_mode == 'calib':
    quantizer.export_quant_config()
  if quant_mode == 'test':
    quantizer.export_xmodel(deploy_check=False, output_dir=quant_model)
  
  return

def run_main():

  # construct the argument parser and parse the arguments
  ap = argparse.ArgumentParser()
  ap.add_argument('-d',  '--build_dir',  type=str, default='build',    help='Path to build folder. Default is build')
  ap.add_argument('-q',  '--quant_mode', type=str, default='calib',    choices=['calib','test'], help='Quantization mode (calib or test). Default is calib')
  ap.add_argument('-b',  '--batchsize',  type=int, default=50,        help='Testing batchsize - must be an integer. Default is 100')
  args = ap.parse_args()

  print('\n'+DIVIDER)
  print('PyTorch version : ',torch.__version__)
  print(sys.version)
  print(DIVIDER)
  print(' Command line options:')
  print ('--build_dir    : ',args.build_dir)
  print ('--quant_mode   : ',args.quant_mode)
  print ('--batchsize    : ',args.batchsize)
  print(DIVIDER)

  quantize(args.build_dir,args.quant_mode,args.batchsize)

  return

if __name__ == '__main__':
    run_main()

量化的代码里面,调用了torch_quantizer来进行量化,量化后的模型一定要用数据集运行一遍(evaluate),可以是没有标签的纯图片,因为这些图片仅用于校准量化参数,不进行反向传播。

执行python文件来生成量化配置

python quantize.py -q calib
https://lgyserver.top/wp-content/uploads/2023/05/image-4-1024x906.png

关注在此期间产生的Warning,比如未能识别的OP,这都是导致后面需要DPU分子图执行的原因。此时build/quant_model已经有生成的py了,需要接着运行test来生成xmodel

python quantize.py -q test -b 1
https://lgyserver.top/wp-content/uploads/2023/05/image-5-1024x66.png

有了这个xmodel,我们需要用xilinx提供的compiler去把这个xmodel编译成DPU支持的,基于XIR的xmodel,运行如下指令:

vai_c_xir -x ./build/quant_model/DetectMultiBackend_int.xmodel -a /opt/vitis_ai/compiler/arch/DPUCZDX8G/KV260/arch.json -o ./ -n my_model
https://lgyserver.top/wp-content/uploads/2023/05/image-6-1024x261.png
没有vai_c_xir?
keyboard_arrow_down

不知道是不是因为我安装的问题,我编译的GPU版本Vitis AI Docker找不到vai_c_xir这条指令,因此我使用GPU的Vitis AI量化生成xmodel以后,用CPU的预构建Docker来生成的最终xmodel

注意观察最终出来的DPU subgraph number是不是1,不是1的话请检查你的模型是不是有DPU不支持的OP,在遇到不支持的OP的时候,DPU会分为多个子图执行,由PS处理完后再发送给DPU,拖慢效率。生成的xmodel可以用netron查看网络输入输出结构。

warning 仔细查看你的模型结构!
一定要用netron查看网络输入输出结构,这点非常重要,因为输出以后的xmodel是一个量化模型,和原模型直接python跑不一样,在上板子部署的过程中需要将输入图片量化,并将量化输出转为浮点后再进行NMS等后处理流程。

我采用了自己训练的12分类的yolov5n模型,观察upload节点的输入如下图:

https://lgyserver.top/wp-content/uploads/2023/05/image-7.png

也就是说,输入图片是一个xint8的定点数,小数点在第6位,size是1*960*960*3。

有了生成的xmodel,模型部分的任务就结束了,接下来要进行部署

部署

部署前准备

首先我们需要一个DPU Design 的 Hardware,可以用Vivado手动Block Design搭一个,不过这会牵扯到很多麻烦的地址设置,我会另写文章单独讲,在这里我们简单用一下Xilinx搭建的标准DPU Hardware,在DPU-PYNQ仓库的boards文件夹下就有。根据README构建Design,需要安装xrt和Vitis。官方的脚本写的比较死板,只认2022.1的版本,可以编辑check_env.sh绕过检查

cd DPU-PYNQ/boards
source <vitis-install-path>/Vitis/2022.2/settings64.sh
source <xrt-install-path>/xilinx/xrt/setup.sh
make BOARD=kv260_som
出现了Timing error?
keyboard_arrow_down

不知道为什么,笔者在构建的时候遇到了Timing问题,导致综合失败,我的解决方法是更换综合Strategy,修改<board>/prj_config,[vivado]部分的最下面增加prop=run.impl_1.strategy=Performance_Explore,可以综合成功,不知道原来哪里出了问题。

脚本运行完后,会生成三个文件

  • dpu.bit
  • dpu.hwh
  • dpu.xclbin

再加上之前生成的

  • my_model.xmodel

需要的文件都准备完成,接下来可以在pynq上进行部署。

安装DPU-PYNQ

配置好PYNQ环境后,需要单独安装DPU-PYNQ,这是一个包,提供了控制DPU的Python接口,位于下面的仓库中

可以直接通过pip安装

pip install pynq-dpu --no-build-isolation
cd $PYNQ_JUPYTER_NOTEBOOKS
pynq get-notebooks pynq-dpu -p .

运行后就可以使用pynq_dpu包了,并且会出现使用pynq_dpu的示例文件。

部署Yolov5

终于来到了激动人心的部署环节!为了让模型能运行起来,在ps需要做的是

  • 部署DPU overlay,加载模型
  • 前处理 + 量化输入
  • 运行DPU推理
  • 反量化输出 + 后处理

我们将一个个解决这些问题。

首先引入pynq-dpu包,这个包是针对pynq的封装,DpuOverlay是继承了Pynq Overlay的

from pynq_dpu import DpuOverlay
overlay = DpuOverlay("yolo5.bit")
overlay.load_model("yolo5.xmodel")

几个需要注意的点:

1、DpuOverlay的参数需要是bit文件,并且在同一路径下应该有同名的.xclbin和.hwh文件

2、编译生成的xmodel需要是上文vai_c_xir生成的xmodel,用test阶段生成的xmodel没用,且对于pynq-dpu来说,目前仅支持Vitis AI 2.5.0生成的xmodel。高版本编译生成的xmodel会导致notebook内核挂起。

然后定义输入输出的缓冲区:

dpu = overlay.runner
inputTensors = dpu.get_input_tensors()
outputTensors = dpu.get_output_tensors()

shapeIn = tuple(inputTensors[0].dims)
shapeOut0 = (tuple(outputTensors[0].dims))
shapeOut1 = (tuple(outputTensors[1].dims))
shapeOut2 = (tuple(outputTensors[2].dims))

outputSize0 = int(outputTensors[0].get_data_size() / shapeIn[0])
outputSize1 = int(outputTensors[1].get_data_size() / shapeIn[0])
outputSize2 = int(outputTensors[2].get_data_size() / shapeIn[0])

input_data = [np.empty(shapeIn, dtype=np.int8, order="C")]
output_data = [np.empty(shapeOut0, dtype=np.int8, order="C"), 
               np.empty(shapeOut1, dtype=np.int8, order="C"),
               np.empty(shapeOut2, dtype=np.int8, order="C")]
image = input_data[0]

在上面的代码中,outputTensors的大小应该和Netron中的一致。在本文中是1*120*120*36,1*60*60*36和1*30*30*36,对应yolov5-nano的三个检测头。

在netron中,DPU计算后输出的outputTensors表示为download节点的数据类型,不是最后节点中的fix2float后的类型,这一步需要在cpu上自己做,如下图。

https://lgyserver.top/wp-content/uploads/2023/06/image.png
download节点

然后可以根据原来的全精度模型的推理代码写出DPU版本的推理代码,首先要对输入图像进行前处理。yolov5的输入是归一化后的像素值,且大小恒定,因此我们用原始代码中的letterbox进行大小裁剪后在对其进行归一化,然后对其进行int8量化。

im0 = cv2.imread('a.jpg')
im = letterbox(im0, new_shape=(960,960), stride=32)[0]  # padded resize
im = im.transpose((2, 0, 1))  # HWC to CHW
im = np.ascontiguousarray(im)  # contiguous
im = np.transpose(im,(1, 2, 0)).astype(np.float32) / 255 * (2**6) # norm & quant
if len(im.shape) == 3:
            im = im[None]  # expand for batch dim

在这段代码中,将图片进行padding后转置(opencv的通道和torch的通道位置不一样),并在最后一步/255归一化后*2^6,为什么是6次方呢?这时候就要用到图里的信息,上面贴过upload节点的数据,小数点是第六位的,因此是6次方,这里需要根据你的模型自己调整。

接下来将处理后的图像reshape成DPU input shape后送入DPU执行就可以了

image[0,...] = im.reshape(shapeIn[1:])
job_id = dpu.execute_async(input_data, output_data) # image below is input_data[0]
dpu.wait(job_id)

执行完毕后还需要对DPU结果进行反量化和整形,回顾一下在量化过程中的原始代码

    def forward(self, x):
        z = []  # inference output
        for i in range(self.nl):
            x[i] = self.m[i](x[i])  # conv
            bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:  # inference
                if self.dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                if isinstance(self, Segment):  # (boxes + masks)
                    xy, wh, conf, mask = x[i].split((2, 2, self.nc + 1, self.no - self.nc - 5), 4)
                    xy = (xy.sigmoid() * 2 + self.grid[i]) * self.stride[i]  # xy
                    wh = (wh.sigmoid() * 2) ** 2 * self.anchor_grid[i]  # wh
                    y = torch.cat((xy, wh, conf.sigmoid(), mask), 4)
                else:  # Detect (boxes only)
                    xy, wh, conf = x[i].sigmoid().split((2, 2, self.nc + 1), 4)
                    xy = (xy * 2 + self.grid[i]) * self.stride[i]  # xy
                    wh = (wh * 2) ** 2 * self.anchor_grid[i]  # wh
                    y = torch.cat((xy, wh, conf), 4)
                z.append(y.view(bs, self.na * nx * ny, self.no))

        return x if self.training else (torch.cat(z, 1),) if self.export else (torch.cat(z, 1), x)

DPU的输出其实是模型输出,也就是x[i] = self.m[i]的这一部分输出,下面的reshape部分(x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2))我们要自己补一下。

对于本模型的1*120*120*32的检测头,在yolov5后处理部分接受的数据是1*3*120*120*12的,因此需要先把32的维度提上来,进行拆分后再把12的部分转回去。

conv_out0 = np.transpose(output_data[0].astype(np.float32) / 4, (0, 3, 1, 2)).view(1, 3, 12, 120, 120).transpose(0, 1, 3, 4, 2)
conv_out1 = np.transpose(output_data[1].astype(np.float32) / 8, (0, 3, 1, 2)).view(1, 3, 12, 60, 60).transpose(0, 1, 3, 4, 2)
conv_out2 = np.transpose(output_data[2].astype(np.float32) / 4, (0, 3, 1, 2)).view(1, 3, 12, 30, 30).transpose(0, 1, 3, 4, 2)
pred = [conv_out0, conv_out1, conv_out2]

在上面的代码中 从output_data拿出数据以后先进行了反量化,至于为什么/4,和量化的时候一样

https://lgyserver.top/wp-content/uploads/2023/06/image-1.png
download节点信息

Download节点表明120大小的检测头输出的是小数点在第二位量化的结果,因此/4 即2^2。

接下来套用原来的后处理和nms即可,nms这里可能需要dump一下原模型的anchor信息,可以在原模型代码里直接访问模型参数拿到

model = DetectMultiBackend('yolov5.pt', device=device) 
print("nc: ",model.model.model[-1].nc)
print("anchors: ",model.model.model[-1].anchors)
print("nl: ",model.model.model[-1].nl)
print("na: ",model.model.model[-1].na)
print("stride: ",model.model.model[-1].stride)

后面就跟原始代码一样了,不过多赘述

结语

DPU最后这个模型的运行速度能达到50fps左右,已经很快了。但是主要卡在前处理上,如果模型过大的话resize会耗时,归一化的步骤也很耗时。不知道以后DPU会不会支持自己归一化,后面想搞一个把resize ip和DPU放在一起的设计,应该能加速很多。

感谢大家阅读。

发表回复

textsms
account_circle
email

  • LEO

    您好想請問 在進行加載量化時出現了 from common import * ModuleNotFoundError: No module named ‘common’ 是需要在哪裡匯入嗎 目前使用vitis-ai3.5 有調用vitis-ai-pytorch 並在yolov5 目錄下創建量化腳本運行

    1 年前 回复
    • dorapocket博主

      @LEO: 你好,这个代码是基于vitis官方的demo的,common.py位于官方git仓库里,你可以看看这里https://github.com/Xilinx/Vitis-AI-Tutorials/tree/1.4/Design_Tutorials/09-mnist_pyt/files

      1 年前 回复
      • LEO

        @dorapocket: 首先感謝您的回答
        如同您說必須引用教程的common 則可使用
        但我想在問一下 若需要改成自己的模型 CustomDataset 這部分具體有需要更改哪裡嗎?
        程式碼與您相同 但會出現CustomDataset not defined
        在這邊一直不斷出錯 再次麻煩 謝謝

        1 年前 回复
        • dorapocket博主

          @LEO: 这个是我自己写的一个数据集模块导入自己数据的,只要遵循Pytorch规范就可以了

          1 年前 回复
          • LEO

            @dorapocket: 再次感謝您的回復
            想請問資料庫方式沒辦法引用yolov5本身的程式嗎?
            我記得當初是設定在data/xxxxdata.yaml
            對於這個量化部分實在是遇到許多的問題…
            使用 datasets.ImageFolder也會出現 Couldn’t find any class
            也一直卡在calib 的量化第一部分
            不知道是否方便留個信箱請教您 很想搞懂 再麻煩幫忙了 謝謝!!~

            1 年前
          • dorapocket博主

            @LEO: 源代码要进行修剪,不能直接用,源代码里面的forward混淆了后处理要删掉。Dataset您可以参考下其他博主的文章~

            1 年前
  • xumou

    您好,我使用Zynq UltraScale+的板子可以复现您的例子吗?

    1 年前 回复
    • dorapocket博主

      @xumou: 没问题的,我就是ZCU102。理论上来说支持DPU的应该都可以,不过你要是要用Pynq的话,貌似要自己编译一下image

      1 年前 回复
  • LEO

    您好, 想請問 在提供的common.py 中需要變更程式嗎? 如我們使用yolov5 針對 CNN(nn.Module):的部分
    目前在 量化 calib 的部分一直編譯不過 再麻煩您解答了 謝謝

    1 年前 回复
  • LEO

    CustomDataset 方便分享一下嗎

    1 年前 回复
  • LEO

    evaluate 是用什評估量化

    1 年前 回复
    • dorapocket博主

      @LEO: 抱歉,最近比较忙,没法回答您所有问题。你问的这些问题blog给的参考资料里面都有,建议您还是先看看这些资料,理解一下基本概念,看看官方的样例。祝成功!

      1 年前 回复
  • Leo

    方便分享量化完整的代碼嗎

    1 年前 回复
  • ceeburn

    您好,请问什么时候出 用Vivado手动Block Design搭一个 DPU Design 的 Hardware 教程呢?

    11 月前 回复
    • dorapocket博主

      @ceeburn: 如果你想接入自己其他的IP,可以参考一下这个导出Vitis Platform的教程。我的理解看所谓的用BD在Vivado搭建本质上并不是把DPU当成一个IP接进去,然后按照传统Vivado的方式走。DPU这套逃不开Vitis的,我们能做的就是把自己的设计(给DPU预留好Platform的接口)导出Vitis Platform然后继续走Vitis的流程(v++)。另外Xilinx官方已经不再支持IP版本的DPU了。。现在主攻AIEngine的DPU,so,快跑

      10 月前 回复
  • heroamd

    您好,请问多子图的调用您有试过吗?有成功过吗?我目前遇到了子图没办法正常create_runner报错libvart-cpu-runner.so: cannot open shared object file: No such file or directory,平台是ZCU104

    10 月前 回复
    • dorapocket博主

      @heroamd: 我是可以的呀,你这个看起来是vart没装好,是在ps报的错吗,要不check一下vart(vitis ai runtime)或者自己编译一下vitis ai的环境?我记得vitis ai的github里面有这个代码~

      10 月前 回复
      • heroamd

        @dorapocket: 是ps报错的,问题是我用rpm装了一遍他那个框架提示没问题?我在回去试试

        10 月前 回复
  • 文哲

    大佬,请问在部署过程中使用的有这样的一段代码:overlay = DpuOverlay(“yolo5.bit”),请问这里面的yolov5.bit的文件是怎么生成的呢

    10 月前 回复
    • dorapocket博主

      @文哲: 抱歉这里确实没写清楚,这里的bit就是上文提到过的dpu.bit,是fpga的bitstream。不同的板子的bitstream不一样,要根据你的板子重新编译。注意这个bit要和前面说的hwh以及xclbin对齐,建议自己跑一遍vivado根据我文章里说的生成一下。

      10 月前 回复
      • 文哲

        @dorapocket: 感谢您的回复!然后我还想请教几个问题:1、编译后的工程里面没有DPU 的IP核,但能够生成bit文件是正常的吗2、letterbox是板子上的linux上自带的函数吗?3、代替x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2)的代码生成的pred就是返回的x[i]吗?

        10 月前 回复
        • dorapocket博主

          @文哲: 1.只要是fpga生成没问题都会有bit,但里面有没有dpu就不知道了。。一般你用他的makefile都不会有问题。2.3.没咋看懂

          10 月前 回复
      • 文哲

        @dorapocket: 请问,conv_out1 = np.transpose(output_data[1].astype(np.float32) / 8, (0, 3, 1, 2)).view(1, 3, 12, 60, 60).transpose(0, 1, 3, 4, 2)这行里的/8是从哪看出来的呢。还有就是nms使用的yolov5自带的non_max_suppression函数吗

        10 月前 回复
  • 文哲

    请问这行代码中的.bit是硬件进行编译后生成的吗?overlay = DpuOverlay(“yolo5.bit”)。我现在用的zuc官方镜像,是不是需要重新编译生成一下这个bit文件

    10 月前 回复
    • dorapocket博主

      @文哲: 这个bit其实就是Pynq的那个bit,需要一个带DPU IP的FPGA设计综合出来的。我不知道你的zcu官方镜像带不带dpu,要是带可以直接用

      6 月前 回复
  • hellocoded

    docker如何拉去2.5版本的vitis ai呢,会显示找不到对应版本

    7 月前 回复
    • dorapocket博主

      @hellocoded: 啊这,估计是太老被xilinx下架了,试试这个

      6 月前 回复
      • hellocoded

        @dorapocket: 博主,如果想要修改DPU-PYNQ的vivado工程,比如添加一个其它的ip之类的是怎么修改呢

        6 月前 回复
        • dorapocket博主

          @hellocoded: 它提供了两个flow,如果是vivado flow,可以直接把dpu当成一个ip引入,然后和之前pynq加ip操作一样。如果是vitis flow,可以在vivado上创建一个vitis platform,把自己的ip加进去,然后给dpu ip留好接口(时钟和axi接口)并在platform里面导出接口(这个步骤创建platform的教程里会写),接着用自己生成的这套platform替换官方脚本里使用的platform并修改dpu官方的v++ connection file变成你自己平台导出的接口,再运行之前的脚本。看起来可能vitis麻烦点,但是我之前用vivado flow生成以后会在pynq上调不起来dpu,我也不知道为啥,但是vitis flow就没这个问题,而且xilinx官方貌似也比较主推vitis的flow

          6 月前 回复
      • hellocoded

        @dorapocket: 大佬,vitis-ai的量化器可以量化成int16吗

        6 月前 回复
        • dorapocket博主

          @hellocoded: 这个我还真没试过。。老版本的DPU估计只支持int8,但是基于versal的aiengine做的新dpu理论上是可以支持到int16的,就是不知道编译层面做没做优化。。

          4 月前 回复
  • yun

    请问dpu反量化输出 + 后处理是直接用户原来的yolo_v5源代码吗?那是否应该在板子上面重新安装pytorch环境呢?博主能否分享下板卡端部署的pynq代码呢

    7 月前 回复
    • dorapocket博主

      @yun: 可以使用原来的后处理代码,但是那个是torch写的,对于pynq有点重量级,我是用的numpy重写了一遍

      6 月前 回复
  • lv

    您好 ,我想问一下就是 我生成的Xmodel文件中 他FIX下面 还有好几层是为啥呀

    7 月前 回复
    • dorapocket博主

      @lv: 会不会是因为后处理没清理干净?

      6 月前 回复
      • @dorapocket: 后处理就是 在yolo那块的代码嘛 我按照您的试了下 还是有问题

        6 月前 回复
        • dorapocket博主

          @吕: 我觉得具体得看download后面的节点类型。如果不是没处理干净的话,不管怎么样DPU输出内容就是download节点的内容,后面如果有别的层只能在CPU上运算了。还有就是可能要检查一下download后面有没有重新跟着DPU计算节点,有的话可能是有不支持的算子,中途被打回到CPU执行了

          6 月前 回复
  • 您好 您进行部署的那部分的代码可以分享一下嘛

    3 月前 回复
  • 大佬就是 部署那部分的代码可以分享一下嘛

    3 月前 回复

Dorapocket

Xilinx Vitis AI量化部署Yolov5至DPU (PYNQ)
概要 本文章记述了从YOLOv5源代码使用Xilinx Vitis AI进行量化并部署到DPU上的全流程。在开Pynq环境下运行测试通过。 环境 主机: Ubuntu 22.04 + Vivado 2022.2 + Vitis AI 2.5.…
扫描二维码继续阅读
2023-05-08