Tensor-Recheneinheiten in NVIDIA Volta

Die nächste Generation des Deep Learning

Der NVIDIA® Tesla® V100-Grafikprozessor basiert auf NVIDIA Volta, einer revolutionären neuen Grafikprozessorarchitektur. Die Streaming-Multiprozessoren dieser Architektur sind 50 % energieeffizienter als bei der vorhergehenden NVIDIA® PascalTM-Architektur. Dies ermöglicht enorme Verbesserungen bei der 32-Bit- (FP32) bzw. 64-Bit-Gleitkommapräzision (FP64). Der größte Fortschritt war jedoch die Einführung der Tensor-Recheneinheiten.

Ein Durchbruch in den Bereichen Training und Interferenz

Diese wurden speziell für das Deep Learning entwickelt und bieten überragende Leistung: eine bis zu 12 Mal höhere TFLOPS-Spitzenleistung für das Training und eine bis zu 6 Mal höhere TFLOPS-Spitzenleistung für die Inferenz. Dank dieses wichtigen Merkmals weist Volta beim Training und bei der Interferenz eine 3 Mal höhere Leistung auf als die Vorgängergeneration. 

Jede der 640 Tensor-Recheneinheiten des Tesla V100-Grafikprozessors verwendet eine 4-x-4-Matrix. Die zugehörigen Datenpfade wurden speziell so gestaltet, dass der Gleitkomma-Berechnungsdurchsatz drastisch verbessert wurde und eine hohe Energieeffizienz erzielt wird.

Steigerung von Effizienz und Leistung

Deep Learning Training in Less Than a Workday

Volta verfügt über 640 Tensor-Recheneinheiten, von denen jede pro Takt 64 Gleitpunkt-FMA-Berechnungen (Fused-Multiply-Add) durchführt. Dadurch stehen für Trainings- und Inferenzanwendungen bis zu 125 TFLOPS zur Verfügung. Das bedeutet, dass Entwickler Deep-Learning-Training mit einer gemischten Genauigkeit von FP16 (Berechnung) und FP32 (Sammlung) durchführen können. So lassen sich eine 3 Mal höhere Geschwindigkeit im Vergleich zur vorherigen Generation und Konvergenz mit den erwarteten Genauigkeitsgraden eines Netzwerks erreichen. Diese 3-fache Leistungssteigerung ist ein wichtiger Fortschritt der Tensor-Recheneinheiten-Technologie. Damit lässt sich Deep Learning nun innerhalb weniger Stunden umsetzen.

47X Higher Throughput than CPU Server on Deep Learning Inference

Bei Inferenz ist mit dem Tesla V100 zudem ein mehr als dreifacher Leistungsvorteil gegenüber der Vorgängergeneration realisierbar. Das entspricht der 47-fachen Beschleunigung im Vergleich mit einem CPU-basierten Server. Bei Verwendung des programmierbaren Inferenzbeschleunigers NVIDIA TensorRT sind diese Beschleunigungen überwiegend auf die Tensor-Recheneinheiten zurückzuführen, die Inferenzaufgaben mithilfe von Mixed-Precision-Leistung beschleunigen.

Enorme Steigerung der Rechenleistung

Lesen Sie das Whitepaper zu den Tensor-Recheneinheiten und zur NVIDIA Volta-Architektur.