BISHER UNERREICHTE BENUTZERINTERAKTION

Verbessern Sie den Durchsatz und die Reaktionsschnelligkeit bei Inferenz-Workloads für Deep Learning.

Die KI muss ständig mit rasant wachsenden Datenvolumen mithalten und gleichzeitig schnell reagieren. Mit NVIDIA® Tesla®, der schnellsten und effizientesten Rechenzentrum-Plattform für Inferenz meistern Sie diese Herausforderungen. Tesla unterstützt alle Deep-Learning-Workloads und bietet die optimale Inferenzlösung. Diese vereint den höchsten Durchsatz, die beste Effizienz und die größte Flexibilität, um die erforderliche Leistung für KI-gestützte Erfahrungen bereitzustellen.

RECHENZENTRUM-INFERENZ-PLATTFORMEN VON NVIDIA

TESLA V100
Für den universellen Einsatz in Rechenzentren

Jeder Tesla V100-Grafikprozessor bietet eine Inferenzleistung von 125 TeraFLOPS. Mit einem einzigen Server mit 8 Tesla V100-Grafikprozessoren kann eine Rechenleistung von einem PetaFLOP erreicht werden.

TESLA P4
Für ultraeffiziente Scale-Out-Server

Der Tesla P4 beschleunigt jeden Scale-Out-Server und bietet eine beeindruckende Energieeffizienz, welche die von CPUs um das 60-Fache übersteigt.

TESLA P40
Für Inferenz-Durchsatz-Server

Der Tesla P40 bietet herausragende Inferenzleistung, INT8-Präzision und 24 GB Onboard-Speicher und sorgt damit für eine erstklassige Nutzererfahrung.

MERKMALE UND VORTEILE

50-mal höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Tesla V100-Grafikprozessoren mit der Volta-Architektur ermöglichen in Rechenzentren eine erhebliche Steigerung des Durchsatzes von Deep-Learning-Workloads, sodass sich aus der heutigen gewaltigen Datenflut sinnvolle Informationen gewinnen lassen. Ein Server mit nur einem Tesla V100 kann bis zu 50 reine CPU-Server für Deep-Learning-Inferenz-Workloads ersetzen und bietet erheblich höheren Durchsatz bei geringeren Beschaffungskosten.

Bisher unerreichte Effizienz für Scale-Out-Server mit niedrigem Stromverbrauch

Der ultraeffiziente Tesla P4-Grafikprozessor beschleunigt in Bezug auf die Dichte optimierte Scale-Out-Server mit kleinem Formfaktor und 50 bzw. 75 W Leistungsaufnahme. Für Deep-Learning-Inferenz-Workloads beeindruckt er mit einer 52-mal höheren Energieeffizienz als CPUs, sodass Hyperscale-Kunden auch innerhalb ihrer bestehenden Infrastruktur Skalierungsmöglichkeiten nutzen und der exponentiell steigenden Nachfrage nach KI-basierten Anwendungen nachkommen können.

Dedizierte Decodier-Engine für neue KI-basierte Videodienste

Der Grafikprozessor Tesla P4 kann bis zu 39 HD-Videostreams in Echtzeit analysieren. Hierzu wird eine dedizierte Decodier-Engine mit Hardwarebeschleunigung verwendet, die parallel mit den NVIDIA CUDA® -Recheneinheiten für die Inferenz ausgeführt wird. Durch die Integration von Deep Learning in die Pipeline können Kunden intelligente, innovative Funktionen auf einem völlig neuen Niveau anbieten, die eine einfachere Videosuche sowie andere Dienste im Videobereich ermöglichen.

Schnellere Bereitstellung mit NVIDIA TensorRT und dem DeepStream SDK

Technische Übersicht zu Inferenz herunterladen NVIDIA TensorRT ist eine extrem leistungsfähige Inferenz-Engine für neuronale Netze, die in der Produktionsbereitstellung von Deep-Learning-Anwendungen eingesetzt wird. Mit TensorRT können neuronale Netze, die mit 32-Bit- oder 16-Bit-Daten trainiert wurden, für INT8-Operationen mit reduzierter Präzision auf einem Tesla P4 oder für FP16 auf einem Tesla V100 optimiert werden. Das NVIDIA DeepStream SDK nutzt die Leistungsstärke von Tesla-Grafikprozessoren, um Videosignale gleichzeitig zu decodieren und zu analysieren.

LEISTUNGSDATEN

Tesla V100: Universeller Einsatz in Rechenzentren Tesla P4 für ultraeffiziente Scale-Out-Server Tesla P40 für Server mit hohem Inferenzdurchsatz
Single-Precision-Leistung (FP32) 14 TeraFLOPS (PCIe)
15,7 TeraFLOPS (SXM2)
5,5 Teraflops 12 Teraflops
Half-Precision-Leistung (FP16) 112 TeraFLOPS (PCIe)
125 TeraFLOPS (SXM2)
Integer-Operationen (INT8) 22 TOPS* 47 TOPS*
Grafikprozessorspeicher 16 GB HBM2 8 GB 24 GB
Speicherbandbreite 900 GB/s 192 GB/s 346 GB/s
Systemschnittstelle/Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe (SXM2/NVLink) Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe
Leistung 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Video-Engine mit Hardwarebeschleunigung 1 Decodier-Engine, 2 Codier-Engines 1 Decodier-Engine, 2 Codier-Engines

*Tera-Operations per Second (Tera-Operationen pro Sekunde) mit Boost-Taktung

DIE NEUESTEN ERFOLGSGESCHICHTEN ZUM THEMA INFERENZ

iFLYTEK

Für die Sprachplattform in der Cloud von iFLYTEK werden die Grafikprozessoren Tesla P4 und P40 von NVIDIA für Training und Inferenz eingesetzt, um die Präzision der Spracherkennung zu verbessern. 

VALOSSA

Das Start-up Valossa, das zu den Teilnehmern am NVIDIA Inception-Programm gehört, setzt NVIDIA-Grafikprozessoren zur Beschleunigung von Deep Learning und zur Prognostizierung des Verhaltens von Zuschauern anhand von Videodaten ein.

JD.COM

JD erzielt mit der KI-Inferenzplattform von NVIDIA eine 40-mal höhere Effizienz bei der Videoerkennung

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

Die Grafikprozessoren Tesla V100, P40 und Tesla P4 sind ab sofort für Deep-Learning-Inferenz verfügbar.