NEWS-CENTER

NVIDIA verhilft Deep Learning und HPC mit seinem neuen GPU Tesla P100 zu einem Quantensprung

Fünf signifikante technische Neuentwicklungen machen Server 12-mal schneller als bei vorherigen Infrastrukturen

Weitere Informationen:  
Christian Beer
NVIDIA
PR Manager D/A/CH
cbeer@nvidia.com


Gebhardt Böhles Public Relations GmbH
Boris Böhles
Geschäftsführender Gesellschafter
Tel. +49 (0) 89 9230 6709 22
boehles@gbpublic.de

tesla-p100-gpu

SAN JOSE, Kalifornien — GPU Technology Conference — 6. April 2016 - NVIDIA hat gestern im Rahmen der GPU Technologie Konferenz in San Jose den modernsten Grafikprozessor vorgestellt, der bisher gefertigt wurde: den Tesla P100 GPU.

Der Tesla P100 ist die neueste Entwicklung aus dem Portfolio von NVIDIAs Tesla Plattform für Hochleistungs-Computing. Dieser Prozessor ermöglicht es allen Servern, die Leistung von hunderten CPU-Server-Knoten zu liefern. Aktuelle Rechenzentren bestehen aus großen Netzwerkinfrastrukturen mit unzähligen vernetzten CPU-Servern, die große Mengen direkter Daten, wie beispielsweise Web-Services, verarbeiten. Solche Infrastrukturen sind allerdings äußerst ineffizient, wenn sie im Bereich Künstlicher Intelligenz (KI) oder für Berechnungen im Forschungsbereich angewendet werden. Diese Prozesse verlangen nach ultra-effizienten und hyperschnellen Server-Knoten, die es bis dato nur sehr vereinzelt auf dem Markt gibt.

Basierend auf NVIDIAs Pascal GPU-Architektur mit seinen fünf wichtigen technologischen Entwicklungen bietet der Tesla P100 so viel Rechenleistung, damit selbst die anspruchsvollsten Applikationen berechnet werden können.

„Unsere größten wissenschaftlichen Herausforderungen, wie die Heilung von Krebs, der Klimawandel und die Entwicklung intelligenter Maschinen, verlangen nach einer unglaublich hohen Rechenleistung. Wir haben die Pascal GPU–Architektur vom ersten Bleistiftstrich an so entwickelt, dass sie auf jeder Ebene große Innovationen bietet. Die Technologie repräsentiert in Hinblick auf Performance und Effizienz einen großen Schritt nach vorne und wird somit den größten Forschern und Denkern unserer Zeit dabei helfen, die Zukunft zu erschaffen“, sagt Jen-Hsun Huang, CEO und Mitgründer von NVIDIA.

Dr. John Kelly III, Senior Vice President Cognitive Solutions von IBM Research, äußert sich wie folgt zur neuen Technologie: „Derzeit betreten wir ein neues Computerzeitalter, für das wir völlig revolutionäre Grundlagentechnologie brauchen - insbesondere in Bezug auf die Nutzung künstlicher Intelligenz und kognitiver Anwendungen. Die Kombination aus NVIDIAs GPUs und der OpenPower-Technologie beschleunigt bereits jetzt das Lernverhalten von Watson bei IBM. Im Verbund aus IBMs Power Architektur und NVIDIAs Pascal Technologie (mit NVLINK) wird die kognitive Rechenleistung immer höher und hilft so der gesamten KI-Industrie.“

Der Tesla P100 verdankt seine hohe Leistung, seine Skalierbarkeit und seine Effizienz diesen fünf technologischen Entwicklungen:

  • NVIDIA Pascal Architektur für exponentielle Leistungssprünge – eine auf Pascal basierende Tesla P100 Lösung bietet im Vergleich mit der älteren NVIDIA Maxwell-basierten Lösung mehr als das 12-fache an Leistung im Bereich neuronale Netzwerke
  • NVIDIA NVLink für maximale Skalierbarkeit - Die NVIDIA NVLink Highspeed -Verbindung ist eine energieeffiziente Verbindung mit hoher Bandbreite, die eine besonders schnelle Kommunikation zwischen der CPU und dem Grafikprozessor sowie zwischen mehreren Grafikprozessoren ermöglicht. Bis zu acht Tesla P100 GPUs können so miteinander verbunden werden, um die maximale Applikationsleistung in jedem Serverknoten zu erreichen. 1 IBM hat NVLINK auf seinen POWER8 CPUs für schnelle CPU-to-GPU Kommunikation bereits implementiert.
  • 16 nm FInFET für unerreichte Energieeffizienz – Mit 15,3 Milliarden Transistoren, verbaut auf 16 Nanometern FinFet-Technologie ist der Pascal GPU der weltweit größte FinFet Chip, der je gebaut wurde. 2
  • CoWoS mit HBM2 für Big Data Verarbeitung – Die Pascal Architektur vereint Prozessor und Daten in ein einziges Paket und sorgt so für eine extrem hohe Effizienz. Der innovative Ansatz, Chip on Wafer on Substrate (CoWoS) mit HBM2 bietet dreimal mehr Memory-Bandbreite im Vergleich zur Maxwell Architektur.
  • Neuer KI-Algorithmus für die höchste Performance – ein neuer halbgenauer Code leistet mehr als 21 TeraFLOP an Höchstleistung für Deep Learning.

Der Tesla P100 Grafikprozessor beschleunigt die Rechenleistung für eine große Bandbreite von Anwendungen im Bereich HPC und Deep Learning. Darunter ist beispielsweise auch der AMBER Molecular Dynamics Code, der auf einem einzelnen Server-Knoten (der mit P100 ausgerüstet ist) schneller arbeitet als 48 Dual-Socket CPU Systeme. Auch für das Training des bekannten neuronalen Netzwerks AlexNet würden derzeit 250 Dual-Socket CPU Serverknoten benötigt - im Gegensatz dazu reichen gerade einmal acht Tesla P100 GPUs aus, um dieselben Prozesse zu bearbeiten.4 Die weit verbreitete Wettervorhersage-Applikation COSMO läuft auf acht Tesla P100 GPUs schneller als auf 27 Dual-Socket Knoten.5

Außerdem ist der neue Grafikprozessor der erste, der mehr als 5 TeraFLOPS Double-Precision Leistung und mehr als 10 TeraFLOPS Single-Precision Leistung bietet.

Updates für NVIDIA SDK
NVIDIA gab heute ebenfalls mehrere Updates bekannt, die sich um die Entwickler-Plattform NVIDIA SDK, drehen.

Diese Updates beinhalten unter anderem NVIDIA CUDA® 8. Die aktuellste Version der Parallel Computing Plattform bietet Entwicklern direkten Zugang zu den neuen Funktionen von Pascal, inklusive NVLink und eine neue Graph Library namens nvGRAPH.

Außerdem kündigte NVIDIA heute die Einführung der cuDNN version 5 an. Dies ist eine GPU beschleunigte Library für tiefe neuronale Netzwerke. cuDNN 5 unterstützt die Pascal GPU sowie die schnellere Bearbeitung von sich wiederholenden neuronale Netzen, die vor allem für Videodaten verwendet werden.

Tesla P100 Spezifikationen:

  • 5.3 TeraFLOPS Double-Precision Leistung, 10.6 TeraFLOPS Single-Precision Leistung und 21.2 TeraFLOPs Half-Precision Leistung mit der NVIDIA GPU BOOST Technologie
  • 160GB/sec bi-directional interconnect bandwidth mit NVIDIA NVLink
  • 16GB CoWoS HBM2 stacked Memory
  • 720GB/sec Memory Bandbreite mit CoWoS HBM2 stacked Memory
  • Verbesserte Programmierbarkeit mit einer Page Migration Engine und Unified Memory
  • ECC Schutz für eine höhere Verlässlichkeit
  • Server-optimiert für den höchsten Datendurchlauf und Verlässlichkeit im Rechenzentrum

Verfügbarkeit
Ab Juni befindet sich der Pascal-basierte NVIDIA Tesla P100 GPU im neuen NVIDIA DGX-1 Deep Learning System. Außerdem wird das neue System ab Anfang 2017 bei führenden Serverproduzenten verfügbar sein.

Mehr Infos:

Bleiben Sie bei NVIDIA auf dem Laufenden:


Über NVIDIA
NVIDIA (NASDAQ: NVDA) leistet seit 1993 Pionierarbeit auf dem Gebiet des visuellen Computings. Die Technologien des Unternehmens transformieren Bildschirmwelten in eine Welt von interaktiven Erlebnissen für Gamer und Wissenschaftler, für Endkunden und Unternehmen. Weitere Informationen gibt es unter http://www.nvidia.de und http://www.nvidia.de/page/newsandevents.html.

______________________________________________________

(1) NVLink delivers 160GB/sec of bi-directional interconnect bandwidth, compared to PCIe x16 Gen3 that delivers 31.5GB/sec of bi-directional bandwidth.

(2) NVIDIA Tesla P100 GPU has 15.3 billion 16nm FinFET transistors.

(3)CPU system: 48 nodes, each node with 2x Intel E5-2680v3 12 core, 128GB DDR4, FDR IB interconnect. GPU system: Single node, 2x Intel E5-2698 v3 16 core, 512GB DDR4, 4x Tesla P100, NVLink interconnect.

(4)Compared to Caffe/AlexNet time to train ILSVRC-2012 dataset on cluster of two-socket Intel Xeon E5-2697 v3 processor-based systems with InfiniBand interconnect. 250-node performance estimated using source: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5.

(5)CPU system: 2x Intel E5-2698 v3 16 core, 256GB DDR4. GPU system: Single node, 2x Intel E5-2698 v3 16 core, 512GB DDR4, 8x Tesla P100, NVLink interconnect.