ページの本文へ

Hitachi

技術計算向けサーバ

2018年1月15日
株式会社 日立製作所

ディープラーニングと科学技術計算に高性能を発揮する
日立スーパーテクニカルサーバのディープラーニングモデル
「SR24000/DL1」を販売開始

最新のGPU「NVIDIA Tesla V100」とCPU「IBM POWER9」の搭載により
従来比最大約12倍の高速学習を実現する性能強化モデルを新たに追加

[画像]日立スーパーテクニカルサーバ「SR24000/DL1」
日立スーパーテクニカルサーバ「SR24000/DL1」

  株式会社日立製作所(以下、日立)は、このたび、日立のスーパーテクニカルサーバ「SR24000シリーズ」のディープラーニングモデル「SR24000/DL1」において、最新のGPU「NVIDIA Tesla V100」とCPU「IBM POWER9」を搭載したモデルを新たにラインナップに追加し、本日から販売開始します。
  今回販売開始する新モデルでは、大幅に性能強化された最新のGPU*1とCPUの搭載により、ディープラーニングの学習性能を従来モデル比で最大約12倍*2と大幅に向上しました。これにより、ディープラーニングの学習時間を短縮し、研究・利用の効率向上を図ります。また、流体計算や気象予測などの大規模シミュレーションや、大量データを用いた科学技術計算においても、最新のGPUとCPUは高い性能を発揮します。さらに、科学技術計算分野で従来から日立が開発・提供している「最適化Fortranコンパイラ」と本モデルとの組み合わせにより、高性能なGPUを科学技術計算分野においても容易に活用可能としています。

*1
Graphics Processing Unit(グラフィックス処理ユニット)。超並列計算により高速演算が可能なプロセッサ。
*2
ディープラーニングの学習に係わる性能で、NVIDIA Tesla P100を搭載する従来モデルとの比較。

  ディープラーニングでは、大量のデータを演算し学習することで、正しい判断を行うニューラルネットワークを構築するため、一回の学習には数時間から数日以上の長い時間がかかります。実際の業務や研究では、この学習を何度も繰り返し行うため、学習のさらなる高速化や効率化が大きな課題となっています。今回は、さらなる学習性能向上を求めるニーズに対応すべく、大幅に学習性能を向上した新モデルを投入するものです。

今回の性能向上モデルの概要

(1)最新GPUのNVIDIA Tesla V100搭載により学習性能を従来比で最大約12倍とし、学習のさらなる高速化に寄与

  今回搭載するNVIDIA Tesla V100は、個々の演算を行うCUDAコア*3をGPU 1基あたり5,120個と多数搭載しているのに加え、ディープラーニングの学習高速化のため新たにTensorコア*4を実装したことで、学習性能を従来のTesla P100と比較し最大約12倍と飛躍的に向上しています。また、これらの演算機構とともに、一度に処理できるデータ量としてGPUの演算性能を左右するメモリバンド幅は、積層メモリ構造により従来のTesla P100より1.2倍高速化し900GB/sを実現しています。これらにより、さらに大規模な演算を高速に実行可能とし、学習時間の短縮に寄与します。

*3
GPUを構成する演算コア。1基あたりの搭載数を増やすことで演算の高速化に効果がある。
*4
4×4の行列計算を高速に実行するための混合精度演算ユニット

(2)GPUの性能を最大限に引き出すIBM POWER9プロセッサの搭載で高性能を実現。

  今回、CPUに採用したIBM POWER9は、先端の14nmテクノロジにより、1プロセッサあたり最大80スレッドを同時実行できる20個の高速なCPUコアと、120MBの大容量のL3キャッシュ、メモリインターフェースとしてDDR4を8チャネル備えることで、高速な処理を実現します。また、POWER8で実現したNVLink*5をさらに高性能化した、NVLink 2.0をサポートしたことで、GPUとCPUとの間のデータ総転送速度が300GB/s*6と、従来のPOWER8より1.9倍に向上したほか、GPUとCPUとの間で同一のメモリ空間を使用可能となったことで、GPU向けプログラミングが容易となり、GPUの高性能を最大限に引き出します。

*5
プロセッサとGPU 間およびGPU間における超高速通信を可能とするエネルギー効率の高いインターコネクト。
*6
1CPUまたは1GPUあたりの双方向合計の転送速度。POWER8では160GB/s。

  なお、今回の新モデルは、科学技術計算プログラムにおいて演算の並列処理を自動的に行い高速化を図る自動並列化機能を持つ「最適化Fortranコンパイラ」と組み合わせることで、科学技術計算分野においても高速なGPUを容易に活用可能としています。日立はこれまで、「最適化Fortranコンパイラ」を開発し、提供してきましたが、今回、「最適化Fortranコンパイラ」がGPUに対応したことで、ソースコードを改変することなくGPUの高速性を活用しやすくなります。

  日立は、今後も、「SR24000シリーズ」をはじめとするスーパーテクニカルサーバ、およびディープラーニングシステムを国内外のパートナーとともに開発・提供し、お客様の先端研究、業務を支えるシステムの導入を積極的に行っていきます。

「SR24000/DL1」について

  2016年10月に販売開始した「SR24000/DL1」は、GPU統合開発環境のNVIDIA CUDAおよびPOWERプラットフォーム向けディープラーニング開発ツールキットであるIBM PowerAIに対応し、ディープラーニングの開発フレームワークとして著名なCaffe、TensorFlow、Chainerなどをサポートし、ディープラーニング環境の開発効率化や学習の高速化を図ってきました。
  最新モデルでは、GPUの最新アーキテクチャVoltaを採用する新世代GPUであるNVIDIA Tesla V100を搭載し、CPUには次世代バス規格NVIDIA NVLinkをシリコンレベルで組み込んだIBM POWER9プロセッサーを採用。GPUとCPUがNVLinkで直結する他にはない特長を有し、GPUコンピューティングの利用範囲をあらゆる分野・業界に提供できる可能性を秘めています。

「SR24000/DL1」の概要

「SR24000/DL1」の概要
モデル名 CPU
(CPU数)
GPU
(GPU数)
メモリ
容量
内蔵ストレージ
(搭載数)
搭載可能
アダプタ
DL1(V100)*7 POWER9™ 
(2)
Tesla V100
(2または4)
256GB
または
512GB
1TB SATA HDD
2TB SATA HDD
1.92TB SATA SSD
(2)
1/10GBASE-T
10GBASE-SR
InfiniBand EDR
DL1(P100)*7 POWER8™ 
(2)
Tesla P100
(2または4)
*7
両モデルとも冷却方式は空冷。

「SR24000/DL1」の価格と出荷時期

「SR24000/DL1」の価格と出荷時期
モデル名 価格 出荷開始時期
DL1(V100) 個別見積 2018年2月15日
DL1(P100) 2016年10月3日(出荷済)

他社商標注記

  • IBM、POWER8、POWER9は、世界の多くの国で登録されたInternational Business Machines Corp.の商標です。
  • CUDA、NVIDIA、NVLink、Teslaは、NVIDIA Corporationの商標または登録商標です。
  • TensorFlowは、Google社の商標です。
  • Chainerは、株式会社Preferred Networksの日本国およびその他の国における商標または登録商標です。
  • その他、記載の会社名、製品名はそれぞれの会社の商標もしくは登録商標です。

本件に関するお問い合わせ先

株式会社 日立製作所 サービスプラットフォーム事業本部