Hitachi

概要

NVIDIA製グラフィックスオプションカード(V100)が取り付けられているシステムで、修正不可能なマシンチェック例外 (UMCE) エラー等が発生する場合があります。

現象および影響範囲

NVIDIA製グラフィックスオプションカード(V100)を搭載するDL380 Gen10サーバーで、修正不可能なPCI Expressエラー(Uncorrectable PCI Express errors)、NMIエラー(Non-Maskable Interrupt errors)、またはUMCEエラー(Uncorrectable Machine Check Exception errors)が発生することがあります。

エラーに伴い、次のようなエントリがIntegrated Management Log (IML) に記録されます。

 Uncorrectable PCI Express Error Detected. Slot 2 (Segment 0x0, Bus 0x11, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x4000

 Uncorrectable PCI Express Error Detected. Slot 6 (Segment 0x0, Bus 0xAE, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x20

 Uncorrectable Machine Check Exception (Processor 2, APIC ID 0x00000020, Bank 0x00000006, Status 0xBB800000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'AE000000)

 Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x00000006, Status 0xBB800000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'36000000)

これらのエラーは、Advanced Platform Management Link (APML) の異常のため発生し、オプションカードの問題を示すものではありません。

回避策

BIOS 2.02では、本現象が確認されていません。
NVIDIA Tesla V100 GPUカードが搭載されているサーバーでは、BIOS 2.02での使用をお勧めします。

対策方法

将来のファームウェアで対策予定です。提供予定の更新があり次第、本ページにてお知らせします。

対象製品

対象製品名 NVIDIA製グラフィックスオプションカード(NVIDIA Tesla V100 PCIe 32GB(TQ-xxx-Q9U36AおよびTQ-xxx-Q9U36C))
※「xxx」はお客さまのご購入製品により相違します。
対象装置 HA8000V/DL380 Gen10

発生条件

特定の条件はありません。

対象バージョン

バージョン依存はありません。

対象OS

OS依存はありません。

更新情報

2020年1月17日(更新)
2019年10月25日(公開)

*
本ページで記載している内容を予告なく変更することがありますので、あらかじめご了承ください。

文書番号

ADV-2019-0091