This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA HGX-KI-Supercomputer

Die leistungsstärkste durchgängige Plattform für KI-Supercomputing.

Speziell für die Konvergenz von Simulationen, Datenanalysen und KI entwickelt.

Massive Datensätze, riesige Modelle beim Deep Learning und komplexe Simulationen erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die NVIDIA HGX^™-KI–Supercomputing-Plattform vereint die volle Leistung von NVIDIA-Grafikprozessoren, NVIDIA^® NVLink^®, NVIDIA InfiniBand-Netzwerken und einem vollständig optimierten NVIDIA KI- und HPC-Softwarestack aus dem NVIDIA NGC^™-Katalog für höchste Anwendungsleistung. Dank der durchgängigen Leistung und Flexibilität ermöglicht es NVIDIA HGX Forschern und Wissenschaftlern, Simulationen, Datenanalysen und KI zu kombinieren, um wissenschaftlichen Fortschritt voranzutreiben.

Unerreichte End-to-End-Plattform für beschleunigtes Computing

NVIDIA HGX stellt mit NVIDIA A100 Tensor Core-GPUs und Hochgeschwindigkeitsverbindungen die leistungsstärksten Server der Welt dar. Dank 16 A100-GPUs bietet HGX A100 bis zu 1,3 Terabyte (TB) Grafikspeicher und eine Speicherbandbreite von über 2 Terabyte pro Sekunde (Tb/s) und erzielt somit nie dagewesene Beschleunigung.

Im Vergleich zu Vorgängergenerationen bietet HGX mit Tensor Float 32 (TF32) bis zu 20-fache KI-Beschleunigung und HPC eine 2,5-fache Beschleunigung mit FP64. NVIDIA HGX leistet atemberaubende 10 PetaFLOPS und ist somit die leistungsstärkste beschleunigte und vertikal skalierbare Server-Plattform für KI und HPC.

NVIDIA HGX A100-Datenblatt (PDF, 418 KB)

NVIDIA HGX A100 8-GPU

NVIDIA HGX A100 mit 8 A100-Grafikprozessoren

NVIDIA HGX A100 4-GPU

NVIDIA HGX A100 mit 4 A100-Grafikprozessoren

Deep-Learning-Leistung

Bis zu 3-mal schnelleres KI-Training bei den größten Modellen

DLRM-Training

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

Größe und Komplexität von Deep Learning-Modellen sind explosionsartig gestiegen und erfordern Systeme mit großen Mengen an Arbeitsspeicher, enormer Rechenleistung und schnellen Verbindungen für Skalierbarkeit. NVIDIA NVSwitch^™ ermöglicht eine extrem schnelle multilaterale Grafikprozessorkommunikation, wodurch die HGX die fortschrittlichsten KI-Modelle bewältigen kann. Durch A100 80 GB-GPUs wird der Grafikspeicher verdoppelt, wodurch eine einzige HGX bis zu 1,3 TB Speicher bietet. Stetig wachsende Workloads bei den allergrößten Modellen wie Deep Learning-Empfehlungsmodellen (DLRM), die über massive Datentabellen verfügen, werden gegenüber der Leistung von HGX-Systemen mit A100 40 GB-GPUs um das bis zu 3-Fache beschleunigt.

Leistung des maschinellen Lernens

2-mal schneller als A100 40 GB im Big Data Analytics-Benchmark

Big Data Analytics-Benchmark | 30 Analytical Retail Queries, ETL, ML, NLP auf 10-TB-Datensatz | V100 32 GB, RAPIDS/Dask | A100 40 GB und A100 80 GB, RAPIDS/Dask/BlazingSQL

Modelle für maschinelles Lernen erfordern das Laden, Umwandeln und Verarbeiten sehr großer Datensätze, um Erkenntnisse zu erlangen. Mit über 1,3 TB vereinheitlichtem Speicher und der multilateralen GPU-Kommunikation über NVSwitch verfügt HGX 80 GB über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen.

In einem großen Datenanalyse-Benchmark erzielte die A100 80 GB Erkenntnisse mit 2-fach höherem Durchsatz als die A100 40 GB, womit sie ideal für zunehmende Workloads mit stetig wachsenden Datensätzen ist.

HPC-Leistung

HPC-Anwendungen müssen jede Sekunde enorme Mengen an Berechnungen durchführen. Durch die drastische Erhöhung der Rechendichte jedes Server-Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen für die Berechnung abrufen. Daher ist die Verbindung der Grafikprozessoren durch NVIDIA NVLink ideal. HPC-Anwendungen können auch TF32 in A100 nutzen und erreichen so in vier Jahren einen bis zu 11-mal höheren Durchsatz bei dichten Matrixmultiplikationsaufgaben mit einfacher Genauigkeit.

Eine HGX mit A100 80 GB-GPUs bietet eine zweifache Durchsatzsteigerung gegenüber A100 40 GB-GPUs in Quantum Espresso, einer Materialsimulation, und führt so zu schnellerem Erkenntnisgewinn.

11-mal mehr HPC-Leistung in vier Jahren

Führende HPC-Anwendungen

Geometrisches Mittel der Anwendungsbeschleunigung vs. P100: Benchmark-Anwendung: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Schnelle Feinabstimmung], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64:10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | Grafikprozessorknoten mit Dual-Sockel-CPUs mit 4x NVIDIA P100-, V100- oder A100-Grafikprozessoren.

Bis zu 1,8-mal höhere Leistung für HPC-Anwendungen

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist als einzelne Hauptplatine mit vier oder acht H100-GPUs und 80 GB GPU-Speicher oder mit A100-GPUs mit jeweils 40 GB oder 80 GB GPU-Speicher erhältlich. Die Konfiguration mit 4 Grafikprozessoren ist vollständig mit NVIDIA NVLink verbunden und die Konfiguration mit 8 Grafikprozessoren ist über NVIDIA NVSwitch miteinander verbunden. Zwei HGX A100-Hauptplatinen können mit einer NVSwitch-Verbindung kombiniert werden, um einen leistungsstarken Einzelknoten mit 16 Grafikprozessoren zu erstellen.

HGX ist auch in einem PCIe-Formfaktor als einfach bereitzustellende Option verfügbar, die höchste Rechenleistung auf Mainstream-Servern bietet.

Diese leistungsstarke Kombination aus Hard- und Software legt den Grundstein für die ultimative KI-Supercomputing-Plattform.

	HGX H100
	H100 PCIe	4-GPU	8-GPU
GPUs	1x NVIDIA H100 PCIe	HGX H100 4-GPU	HGX H100 8-GPU
Formfaktor	PCIe	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
HPC- und KI-Berechnungen (FP64/TF32/FP16/FP8/INT8)	48TF/800TF/1.6PF/3.2PF/3.2 POPS	240TF/4PF/8PF/16PF/16POPS	480TF/8PF/16PF/32PF/32POPS
Arbeitsspeicher	80 GB pro Grafikprozessor	Bis zu 320 GB	Bis zu 640 GB
NVLink	Vierte Generation	Vierte Generation	Vierte Generation
NVSwitch	N/A	N/A	Dritte Generation
NVLink-Switch	N/A	N/A	N/A
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	N/A	N/A	900 GB/s
Gesamte aggregierte Bandbreite	900 GB/s	3,6 TB/s	7,2 TB/s

	HGX A100
	A100 PCIe	4-GPU	8-GPU	16-GPU
GPUs	1x NVIDIA A100 PCIe	HGX A100 4-GPU	HGX A100 8-GPU	2x HGX A100 8-GPU
Formfaktor	PCIe	4x NVIDIA A100 SXM	8x NVIDIA A100 SXM	16x NVIDIA A100 SXM
HPC- und KI-Berechnungen (FP64/TF32/FP16/INT8)	19.5TF/312TF/624TF/1.2POPS	78TF/1.25PF/2.5PF/5POPS	156TF/2.5PF/5PF/10POPS	312TF/5PF/10PF/20POPS
Arbeitsspeicher	80 GB pro Grafikprozessor	Bis zu 320 GB	Bis zu 640 GB	Bis zu 1.280 GB
NVLink	Dritte Generation	Dritte Generation	Dritte Generation	Dritte Generation
NVSwitch	N/A	N/A	Zweite Generation	Zweite Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	N/A	N/A	600 GB/s	600 GB/s
Gesamte aggregierte Bandbreite	600 GB/s	2,4 TB/s	4,8 TB/s	9,6 TB/s

Beschleunigung von HGX mit NVIDIA Networking

Mit HGX ist es auch möglich, NVIDIA-Netzwerke einzubeziehen, um Datenübertragungen zu beschleunigen und zu entlasten und die volle Nutzung der Rechenressourcen sicherzustellen. Smart Adapters und Switches reduzieren die Latenz, steigern die Effizienz, erhöhen die Sicherheit und vereinfachen die Automatisierung von Rechenzentren, sodass die Leistung von End-to-End-Anwendungen beschleunigt wird.

Das Rechenzentrum ist die Recheneinheit der Zukunft und HPC-Netzwerke spielen eine wesentliche Rolle bei der Skalierung der Anwendungsleistung im gesamten Rechenzentrum. NVIDIA InfiniBand ebnet den Weg mit softwaredefinierten Netzwerken, Beschleunigungsmodulen mit netzwerkinternem Computing, Remote-Direktspeicherzugriff (RDMA) und den höchsten Geschwindigkeiten und schnellsten Datenfeeds.

Referenzarchitekturen HGX-1 und HGX-2

Mit NVIDIA-Grafikprozessoren und NVLINK

NVIDIA HGX-1 und HGX-2 sind Referenzarchitekturen, die das Design von Rechenzentren standardisieren und so KI und HPC beschleunigen. Mit NVIDIA SXM2 V100-Boards und NVIDIA NVLink- sowie NVSwitch-Verbindungstechnologien verfügen HGX-Referenzarchitekturen über ein modulares Design, das problemlos in Hyperscale- und Hybrid-Rechenzentren funktioniert, um bis zu 2 petaFLOPS Rechenleistung für schnelle und einfache KI und HPC zu bieten.

Technische Daten

	8-GPU HGX-1	16-GPU HGX-2
GPUs	8x NVIDIA V100	16x NVIDIA V100
KI-Rechenleistung	1 petaFLOPS (FP16)	2 petaFLOPS (FP16)
Arbeitsspeicher	256 GB	512 GB
NVLink	2. Generation	2. Generation
NVSwitch	N/A	Ja
NVSwitch-Bandbreite für Verbindungen zwischen GPUs	N/A	300 GB/s
Gesamte aggregierte Bandbreite	2,4 TB/s	4,8 TB/s

Erfahren Sie mehr über den NVIDIA A100-Grafikprozessor

Weitere Infos