Jetson TX2 ディープラーニング推論ベンチマーク

Jetson Nanoで実施されたディープラーニング推論ベンチマークをJetson TX2で実施してみました。

今回のベンチマークの目的は、Jetson NanoとJetson TX2との比較と、Jetson TX2のFP32とFP16との比較を行うことです。

Jetson Nanoのディープラーニング推論ベンチマークの結果と手順が、それぞれ Jetson Nano: Deep Learning Inference Benchmarks | NVIDIA DeveloperDeep Learning Inference Benchmarking Instructions – NVIDIA Developer Forums で公開されています。

スポンサーリンク

Jetson TX2のベンチマーク条件

Jetson TX2には、JetPack 4.2(TensorRT 5.0.6)をインストールしています。
また、以下のコマンドで最大電力・最高周波数に設定して、ベンチマークを実施しています。

$ sudo nvpmodel -m 0
$ sudo jetson_clocks

Jetson TX2のベンチマーク結果

Jetson NanoとJetson TX2との比較(精度:FP16、バッチ数:1)

Jetson Nanoを基準としたJetson TX2のディープラーニング推論性能は、図の灰色の線のように、2.1~3.2倍となるようです。

Jetson TX2のFP32とFP16との比較(バッチ数:1)

Jetson TX2のFP32を基準としたFP16のディープラーニング推論性能は、図の灰色の線のように、1.1~2.0倍となるようです。

TensorRTのtrtexecの場合、推論エンジンの精度をFP32にするには、引数の--fp16--fp32に変更するのではなく、以下の例のように、引数の--fp16を削除します。

$ # FP16
$ /usr/src/tensorrt/bin/trtexec --deploy=ResNet50_224x224.prototxt \
  --output=prob --batch=1 --fp16
$ # FP32
$ /usr/src/tensorrt/bin/trtexec --deploy=ResNet50_224x224.prototxt \
  --output=prob --batch=1

まとめ

Jetson TX2で、ディープラーニング推論ベンチマークを実施してみました。

Jetson NanoとJetson TX2との比較(精度:FP16、バッチ数:1)から、Jetson Nanoを基準としたJetson TX2のディープラーニング推論性能は、2.1~3.2倍であることが分かりました。

また、Jetson TX2のFP32とFP16との比較(バッチ数:1)から、FP32を基準としたFP16の ディープラーニング推論 性能は、1.1~2.0倍であることが分かりました。