NVIDIA製グラフィックスオプションカード(V100)が取り付けられているシステムで、修正不可能なマシンチェック例外 (UMCE) エラー等が発生する場合があります。
NVIDIA製グラフィックスオプションカード(V100)を搭載するDL380 Gen10サーバーで、修正不可能なPCI Expressエラー(Uncorrectable PCI Express errors)、NMIエラー(Non-Maskable Interrupt errors)、またはUMCEエラー(Uncorrectable Machine Check Exception errors)が発生することがあります。
エラーに伴い、次のようなエントリがIntegrated Management Log (IML) に記録されます。
Uncorrectable PCI Express Error Detected. Slot 2 (Segment 0x0, Bus 0x11, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x4000
Uncorrectable PCI Express Error Detected. Slot 6 (Segment 0x0, Bus 0xAE, Device 0x0, Function 0x0). Uncorrectable Error Status: 0x20
Uncorrectable Machine Check Exception (Processor 2, APIC ID 0x00000020, Bank 0x00000006, Status 0xBB800000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'AE000000)
Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x00000006, Status 0xBB800000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'36000000)
これらのエラーは、Advanced Platform Management Link (APML) の異常のため発生し、オプションカードの問題を示すものではありません。
BIOS 2.02では、本現象が確認されていません。
NVIDIA Tesla V100 GPUカードが搭載されているサーバーでは、BIOS 2.02での使用をお勧めします。
将来のファームウェアで対策予定です。提供予定の更新があり次第、本ページにてお知らせします。
対象製品名 | NVIDIA製グラフィックスオプションカード(NVIDIA Tesla V100 PCIe 32GB(TQ-xxx-Q9U36AおよびTQ-xxx-Q9U36C)) ※「xxx」はお客さまのご購入製品により相違します。 |
---|---|
対象装置 | HA8000V/DL380 Gen10 |
特定の条件はありません。
バージョン依存はありません。
OS依存はありません。
2020年1月17日(更新)
2019年10月25日(公開)
ADV-2019-0091