ページの本文へ

Hitachi

技術計算向けサーバ

スーパーテクニカルサーバ「SR24000」のディープラーニング専用モデル

画像 SR24000/DL1

ベクトル型スーパーコンピュータの実効性能の高さと並列コンピュータの高いスケーラビリティを併せ持つスーパーテクニカルサーバ「SR24000」のディープラーニング研究・利用用途に特化したモデル。

特長

NVIDIA Tesla GPU P100またはV100を2台または4台搭載。
CPU(POWER8™またはPOWER9™)とGPUがNVIDIA NVLink™ により直接接続する画期的なシステムです。
サーバメモリは256GB/512GB/1TB搭載。USBポート x2,PCIスロット(LP)を3または4スロット備え、外部ネットワーク(10GbE,InfiniBand)など柔軟に構成可能。
ディープニューラルネットワーク(DNN)の迅速な設計のため、主要なディープラーニングフレームワーク、ドライバ等の開発環境をサポートします。

ディープラーニング・スタートアップサービス

SR24000/DL1システム導入時のお困りやご要望にお応えし、お客様のディープラーニング・システムご利用開始を支援するサービスをご用意しました。

仕様

■システム仕様
DL1(P100) DL1(V100)
GPUs Tesla P100 SXM2 x 2 or 4 Tesla V100 SXM2 x 2 or 4
FP16 FLOPS 21.2TFLOPS x 2 or 4 *1 31.2TFLOPS x 2 or 4 *1
GPU メモリ 16GB x 2 or 4 16GB または 32GB x 2 or 4
CPU POWER8 10c 2.86GHz x 2 POWER9 20c 2.4GHz x 2
CPU メモリ DDR4 256GB or 512GB DDR4 256GB or 512GB or 1TB
内蔵ストレージ 1TB 7,200RPM HDD x 2 or 2TB 7,200RPM HDD x 2 or 1.92TB SSD x 2
ネットワーク 1GbE, 10GbE, 40GbE, IB EDR 1GbE, 10GbE, 25GbE,
IB EDR(Gen.4)
ソフトウェア Ubuntu Server Linux OS または Red Hat Enterprise Linux for POWER
物理諸元 サイズ 441.5 x 86 x 822 (WxHxD:mm) 443 x 86 x 850 (WxHxD:mm)
重量 30kg
最大電力 2,550W 2,500W
電源 200-240V AC(C13/C14) 200-240V AC(C19/C20)
動作環境 18 - 27 ℃(推奨)
*1
1TFLOPSは、浮動小数点演算を1秒間に1兆回実行する能力。

記載されている仕様は、製品の改良により予告無く変更になることがあります。

  • SR24000/DL1 ディープラーニングシステムの販売パートナーはこちら
    (GDEPソリューションズ株式会社のwebサイトへ)(新規ウィンドウを表示)

ソフトウェア

DL1はIBM PowerAIをサポートしており、OSにはUbuntuおよびRHEL 7.5(Little Endian)、GPU開発環境としてNVIDIA Cuda、各種DL フレームワークをサポートしています。現時点(2018/11/16)の最新のIBM PowerAI Release 1.5.4では、以下のDLフレームワーク他をサポートしています。IBM PowerAIのサポート範囲は順次更新されます。

IBM PowerAI Release 1.5.4 でのサポートS/W

  • DDL
  • TensorFlow
  • IBM Caffe
  • BVLC Caffe
  • PyTorch
  • Snap ML
  • OpenBLAS
  • Spectrum MPI
  • 詳しくはこちら
    (IBMのWebサイトへ)(新規ウィンドウを表示)

NVIDIA NVLinkの効果

(1)CPU-GPU間データ転送速度の大幅向上

DL1のNVIDIA NVLinkは、片方向 40GB/sの高帯域でCPUとGPUを直接接続します。
これは、従来のPCI Express Gen.3の16GB/sと比較し、理論値で2.5倍です。
実際のデータ転送速度を検証すると、約3倍の実行性能を確認しています。

画像:CPU-GPU間データ転送速度の比較

(2)大規模メモリ・アプリケーションの性能改善

Cuda 8で拡張されたUnified Memory によりGPUの利用が更に簡単になりました。 また、DL1ではCPUとGPUがNVIDIA NVLinkにより直接結合されているため、Unified Memoryとの相性が非常に優れています。 具体的には、Unified Memoryを利用することで、16GBしかないGPUメモリをあふれるような大規模メモリのアプリケーションも問題なく完了します。 さらに、GPUメモリからデータがあふれた場合、NVIDIA NVLink接続のDL1ではPCI接続のサーバに対してベンチマーク性能で2倍の性能を発揮することを確認しています。

画像:CPU-GPU間データ転送速度の比較

(他社商標に関する表示)

  • NVIDIA Pascal、NVLinkおよびCUDAは、米国およびその他の国におけるNVIDIA Corporationの商標または登録商標です。
  • POWER8、POWER9は、米国およびその他の国におけるInternational Business Machines Corporationの登録商標または商標です。
  • InfiniBandは、InfiniBand Trade Associationの商標またはサービスマークです。
  • Linuxは、Linus Torvalds氏の日本およびその他の国における登録商標または商標です。
  • その他記載の会社名、製品名は、それぞれの会社の商標または登録商標です。