Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur eine herausragende Leistung, sondern auch die Flexibilität bieten, um verschiedene neuronale Netzwerke zu beschleunigen. Gleichzeitig muss er programmierbar sein, damit Entwickler neue Netze erstellen können. Niedrige Latenz bei hohem Durchsatz und gleichzeitiger Maximierung der Auslastung sind die wichtigsten Leistungsanforderungen für die zuverlässige Bereitstellung von Inferenz. NVIDIA Tensor-Recheneinheiten bieten eine umfassende Reihe an Precisions – TF32, bfloat16, FP16, FP8 und INT8 – und sind damit unschlagbar vielseitig und leistungsstark.
Dank der Tensor-Recheneinheiten gewann NVIDIA MLPerf, den Benchmark für Inferenz in der Branche.