TensorRT 개론
Xaiver
에서의 TensorRT-5
- Volta GPU INT8 Tensor Cores (HMMA/IMMA)
- Early-Access DLA FP 16 support
- Updated smaples to enabled DLA
- Fine-grained control of DLA layers and GPU Fallback
- New APIs added to IBuilder interface:
Chapter 1: What is tensorRT
- 목적은 이미 학습된 딥러닝 모델을 빠르고 효율적으로 GPU에 구동 시키는것을 목적으로한다.
- TensorFlow는 TensorRT와 통합되어 있으므로 프레임웍 내에서 이러한 작업이 가능하다.
- layers, kernel selection, normalization등에 맞는 precision (F32, F16, INT8)을 적절히 정해서
latency
,throughput
,efficiency
를 최적화 한다.
1.4 What Capabilities Does TensorRT Provide?
C++로는 모든 플랫폼을 지원하고 Python으로 x86만을 지원한다.
- 따라서 ARM에서 하려면 C++로 해야할듯
TensorRT의 핵심 인터페이스는 아래와 같음.
Network definition:
네트워크 정의와 input과 output을 정의함.Builder:
최적화된 네트웤 정의를 생성하기 위한 optimized engine을 생성함.Engine:
inference의 실행을 application에서 가능 하도록 한다. 동기와 비동기 모두를 지원한다.Caffe Parser:
카페를 위한 것UFF Parser:
UFF format model을 읽기 위함ONNX Parser:
ONNX 모델을 위한 것이다.
참고문헌
공식문서
https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html
https://docs.nvidia.com/deeplearning/dgx/integrate-tf-trt/index.html
https://docs.nvidia.com/deeplearning/dgx/integrate-tf-trt-release-notes/tf-rel-1812.html#tf-rel-1812
샘플 실행, DLA 방법까지 설명됨
https://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/index.html#mnist_sample
공식 TensorRT Archives
https://docs.nvidia.com/deeplearning/sdk/tensorrt-archived/index.html
미디엄 포스팅
https://medium.com/tensorflow/speed-up-tensorflow-inference-on-gpus-with-tensorrt-13b49f3db3fa
https://medium.com/kubeflow/gpu-accelerated-inference-for-kubernetes-with-the-nvidia-tensorrt-inference-server-and-kubeflow-63061305fff2
'Data Science > Embedded Deep learning' 카테고리의 다른 글
TensorRT이용한 Xavier DLA (NVDLA) 실행 (3) | 2019.02.08 |
---|---|
NVDLA: NVIDIA Deep Learning Accelerator (DLA) 개론 (0) | 2019.02.08 |
TensorRT 개론 (0) | 2019.02.08 |
Glow: graph lowering compiler for hardware accelerators (0) | 2019.02.07 |
NVIDIA AI Tech Workshop at NIPS 2018 -- Session3: Inference and Quantization (0) | 2019.02.06 |
DeepStream을 통한 low precision YOLOv3 실행 (0) | 2019.01.24 |