Hitachi

概要

RHEL8.4環境において、Broadcom製BCM5741xネットワークアダプターを搭載しているサーバでシャットダウンを行っても、Uncorrectable PCI Express Errorが発生してシャットダウンの代わりにサーバがリセットされるため、電源オフされないことがあります。

発生頻度

現象および影響範囲

RHEL8.4環境において、Broadcom製BCM5741xネットワークアダプターを搭載しているサーバでシャットダウンを行っても、Uncorrectable PCI Express Errorが発生してシャットダウンの代わりにサーバがリセットされるため、電源オフされないことがあります。

本現象が発生した場合、iLO Integrated Management Log (IML)に、以下に示すどちらかのエラーまたは両方のエラーが記録されることがあります。

Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000,Bank 0x00000006, Status 0xBB800000'00000E0B, Address 0x00000000'00000000,Misc 0x00000000'11100000).

Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x13,Device 0x0, Function 0x1). Uncorrectable Error Status: 0x100000

また、RHELでクラッシュが有効になっている場合は、IMLメッセージだけでなく、/var/crashにvmcoreダンプが生成されることがあります。

回避策

RDMA over Converged Ethernet (RoCE)を無効にしてください。

  1. /usr/lib/udev/rules.d/90-rdma-hw-modules.rulesを編集します。
  2. bnxt_reの自動ロード行をコメントアウトします。
    #ENV{ID_NET_DRIVER}=="bnxt_en", RUN{built-in}+="kmod load bnxt_re"
  3. 変更を保存してから、「sync」と入力して変更をフラッシュし、「reboot」と入力して再起動します。
  4. RoCEドライバが無効になっていることを確認して、サーバをシャットダウンします。

対策方法

対策方法はありません。

対象製品

対象製品名 Ethernet 10Gb 2-port FLR-T BCM57416 Adapter (TQ-xxx-817721-B21)
※旧品名:Ethernet 10Gb 2 ポート 535FLR-T ネットワークアダプター
Ethernet 10Gb 2-port BASE-T BCM57416 Adapter (TQ-xxx-813661-B21)
※旧品名:Ethernet 10Gb 2 ポート 535T ネットワークアダプター
Ethernet 10Gb 2-port FLR-SFP+ BCM57414 Adapter (TQ-xxx-P08440-B21)
※旧品名:Ethernet 10Gb 2ポート 537FLR-SFP+ ネットワークアダプター
Ethernet 10Gb 2-port SFP+ BCM57414 Adapter (TQ-xxx-P08421-B21)
※旧品名:Ethernet 10Gb 2ポート 537SFP+ ネットワークアダプター
Ethernet 10/25Gb 2-port FLR-SFP28 BCM57414 Adapter (TQ-xxx-817709-B21)
※旧品名:Ethernet 10/25Gb 2ポート 631FLR-SFP28 ネットワークアダプター
Ethernet 10/25Gb 2-port SFP28 BCM57414 Adapter (TQ-xxx-817718-B21)
※旧品名:Ethernet 10/25Gb 2ポート 631SFP28 ネットワークアダプター
※「xxx / xxxx」はお客さまのご購入製品により相違します。
対象装置 HA8000V/DL20 Gen10
HA8000V/DL360 Gen10
HA8000V/DL380 Gen10
HA8000V/DL580 Gen10
HA8000V/ML30 Gen10
HA8000V/ML350 Gen10

発生条件

対象バージョンに記載しているファームウェアとドライバを使用し、RoCEドライバ(bnxt_re)が有効になっている場合に本現象が発生します。

  • RoCEドライバの有効/無効の確認方法

     # lsmod | grep bnxt
     bnxt_en xxxxxx 0
     bnxt_re xxxxxx 0

    RoCEドライバが有効の場合は"bnxt_re"が表示されて、RoCEドライバが無効の場合は"bnxt_re"が表示されません。

対象バージョン

以下に示すファームウェアバージョンとドライババージョンの組み合わせが対象になります。

ファームウェアバージョン:218.0.303000 (SPH6.60収録バージョンおよびダウンロードサイト掲載)
bnxt_enドライババージョン:1.10.2-219.0.55.0 (SPH6.60収録バージョンおよびダウンロードサイト掲載)

対象OS

Red Hat Enterprise Linux Server 8.4(64-bit x86_64)

更新情報

2022年10月28日(公開)

*
本ページで記載している内容を予告なく変更することがありますので、あらかじめご了承ください。

文書番号

ADV-2022-0119