Tesla

Deep-Learning-Training beschleunigen
Mit grafikprozessorbeschleunigtem Caffe
Die schnellste und einfachste Möglichkeit für den Einstieg in Caffe auf Grafikprozessoren
Deep-Learning-Training beschleunigen Mit grafikprozessorbeschleunigtem Caffe- Die schnellste und einfachste Möglichkeit für den Einstieg in Caffe auf Grafikprozessoren

Trainingsmodelle

AlexNet (Batchgröße 256)

Standardmäßig ist das Modell so konfiguriert, dass das Netz vollständig trainiert wird. Dies dauert zwischen mehreren Stunden und mehreren Tagen. Für das Benchmarking wird die Anzahl der Iterationen auf 1.000 begrenzt. Öffnen Sie die Datei models/bvlc_alexnet/solver.prototxt in einem Texteditor und nehmen Sie die folgenden Änderungen vor:

max_iter: 1000

Speichern und schließen Sie die Datei. Nun können Sie das Netz trainieren:

$ export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/lib:$LD_LIBRARY_PATH

$ ./build/tools/caffe train –solver=models/bvlc_alexnet/solver.prototxt –gpu 0

……….
I0817 13:29:57.535207 30840 solver.cpp:242] Iteration 160 (1.57876 iter/s, 12.6682s/20 iter), loss = 6.90907
I0817 13:29:57.535292 30840 solver.cpp:261] Train net output #0: loss = 6.90907 (* 1 = 6.90907 loss)
I0817 13:29:57.535312 30840 sgd_solver.cpp:106] Iteration 160, lr = 0.01
I0817 13:30:10.195734 30840 solver.cpp:242] Iteration 180 (1.57974 iter/s, 12.6603s/20 iter), loss = 6.90196
I0817 13:30:10.195816 30840 solver.cpp:261] Train net output #0: loss = 6.90196 (* 1 = 6.90196 loss)
I0817 13:30:10.195835 30840 sgd_solver.cpp:106] Iteration 180, lr = 0.01
I0817 13:30:22.852818 30840 solver.cpp:242] Iteration 200 (1.58017 iter/s, 12.6568s/20 iter), loss = 6.92144
……….

Sie können das Netz auf mehreren Grafikprozessoren trainieren, indem Sie mehr Geräte-IDs (z. B. 0,1,2,3) angeben. Oder verwenden Sie den Zusatz „-gpu all“, wenn alle verfügbaren Grafikprozessoren im System verwendet werden sollen.

GoogLeNet (Batchgröße 32)

Standardmäßig ist das Modell so konfiguriert, dass das Netz vollständig trainiert wird. Dies dauert zwischen mehreren Stunden und mehreren Tagen. Für das Benchmarking wird die Anzahl der Iterationen auf 1.000 begrenzt. Öffnen Sie die Datei models/bvlc_googlenet/solver.prototxt in einem Texteditor und nehmen Sie die folgenden Änderungen vor:

max_iter: 1000

Speichern und schließen Sie die Datei. Nun können Sie das Netz trainieren:

$ export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/lib:$LD_LIBRARY_PATH

$ ./build/tools/caffe train –solver=models/bvlc_googlenet/solver.prototxt –gpu 0

……….
I0817 13:33:08.056823 30959 solver.cpp:242] Iteration 80 (7.96223 iter/s, 5.02372s/40 iter), loss = 11.1401
I0817 13:33:08.056893 30959 solver.cpp:261] Train net output #0: loss1/loss1 = 6.85843 (* 0.3 = 2.05753 loss)
I0817 13:33:08.056910 30959 solver.cpp:261] Train net output #1: loss2/loss1 = 7.00557 (* 0.3 = 2.10167 loss)
I0817 13:33:08.056921 30959 solver.cpp:261] Train net output #2: loss3/loss3 = 6.82249 (* 1 = 6.82249 loss)
I0817 13:33:08.056934 30959 sgd_solver.cpp:106] Iteration 80, lr = 0.01
I0817 13:33:13.074957 30959 solver.cpp:242] Iteration 120 (7.97133 iter/s, 5.01798s/40 iter), loss = 11.1306
I0817 13:33:13.075026 30959 solver.cpp:261] Train net output #0: loss1/loss1 = 6.91996 (* 0.3 = 2.07599 loss)
I0817 13:33:13.075042 30959 solver.cpp:261] Train net output #1: loss2/loss1 = 6.91151 (* 0.3 = 2.07345 loss)
I0817 13:33:13.075052 30959 solver.cpp:261] Train net output #2: loss3/loss3 = 6.95206 (* 1 = 6.95206 loss)
I0817 13:33:13.075065 30959 sgd_solver.cpp:106] Iteration 120, lr = 0.01
I0817 13:33:18.099795 30959 solver.cpp:242] Iteration 160 (7.96068 iter/s, 5.0247s/40 iter), loss = 11.1211
……….

Sie können das Netz auf mehreren Grafikprozessoren trainieren, indem Sie mehr Geräte-IDs (z. B. 0,1,2,3) angeben. Oder verwenden Sie den Zusatz „-gpu all“, wenn alle verfügbaren Grafikprozessoren im System verwendet werden sollen.

LEISTUNGSSTEIGERUNG VERFOLGEN

BENCHMARKS ANSEHEN

 
CUDA und GPU Computing

Was ist GPU Computing?
Wissenswertes über
GPU Computing

Grafikprozessor-Programmierung
Kepler Grafikprozessor-
Architektur

GPU-Cloud-Computing
Kontaktieren Sie Uns

Was ist CUDA?
CUDA Showcase
Was ist CUDA?
CUDA Centers of Excellence
CUDA-Kurskalender
CUDA Forschungszentren
CUDA Ausbildungszentren

Grafikprozessor-Anwendungen

Tesla Grafikprozessor-Anwendungen
Tesla Fallstudien
Tesla Grafikprozessor-Test
OpenACC-Direktiven
GeoInt Accelerator

Tesla Grafikprozessoren
für Server und Workstations

Warum Tesla
Tesla Server-Lösungen
Tesla Workstation-Lösungen
Embedded Entwicklungsplattform
Tesla Grafikprozessoren kaufen

Tesla News
und Informationen

Tesla Produktdokumentation
Tesla Softwaremerkmale
Tesla Software-
Entwicklungstools

NVIDIA Forschung
Tesla Mitteilungen

Aktuelle News Online

NVIDIA Blog NVIDIA Blog

Facebook Facebook

Twitter Twitter

Twitch Twitch

YouTube YouTube