Hitachi

概要

ファイバチャネル経由で接続されたストレージ装置のポート/ノードでリセットが発生した場合、OSがハングアップする場合があります。この現象の対策方法を以下に示します。

重要度

重要

現象および影響範囲

ファイバーチャネル経由でストレージ装置に接続されたシステムにおいて、ストレージ装置のポートやコントローラーで予期せず複数回のリセットが発生した場合、タスクのハングやNMIが発生し、カーネルパニックに至る可能性があります。この問題は、ストレージ装置のポートやコントローラーで一時的な障害が発生した、又は大量のI/Oトラフィックを実行しストレージ装置が応答出来なくなった等により、ストレージ装置の回復動作(リセット)が実行された場合に発生する可能性があります。

この問題が発生した場合、以下のカーネルメッセージがシステムログに採取されます。

kernel: Call Trace:
kernel: [<ffffffff816a94c9>] schedule+0x29/0x70
kernel: [<ffffffff816a6fd9>] schedule_timeout+0x239/0x2c0
kernel: [<ffffffff812f71d3>] ? __blk_run_queue+0x33/0x40
kernel: [<ffffffff812f728a>] ? queue_unplugged+0x2a/0xa0
kernel: [<ffffffff810e939c>] ? ktime_get_ts64+0x4c/0xf0
kernel: [<ffffffff816a8b4d>] io_schedule_timeout+0xad/0x130
kernel: [<ffffffff816a8be8>] io_schedule+0x18/0x20
kernel: [<ffffffff812421d5>] do_blockdev_direct_IO+0x1c45/0x2020
kernel: [<ffffffff8123cb30>] ? I_BDEV+0x10/0x10
kernel: [<ffffffff81242605>] __blockdev_direct_IO+0x55/0x60
kernel: [<ffffffff8123cb30>] ? I_BDEV+0x10/0x10
kernel: [<ffffffff8123d420>] blkdev_direct_IO+0x60/0xa0
kernel: [<ffffffff8123cb30>] ? I_BDEV+0x10/0x10
kernel: [<ffffffff811844fc>] generic_file_aio_read+0x70c/0x790
kernel: [<ffffffff812fab24>] ? blk_finish_plug+0x14/0x40
kernel: [<ffffffff8123d97c>] blkdev_aio_read+0x4c/0x70
kernel: [<ffffffff8120019d>] do_sync_read+0x8d/0xd0
kernel: [<ffffffff81200b9c>] vfs_read+0x9c/0x170
kernel: [<ffffffff81201a5f>] SyS_read+0x7f/0xe0
kernel: [<ffffffff816b4fc9>] system_call_fastpath+0x16/0x1b

回避策

回避策はございません。

対策方法

対策版のLinux向けドライバを日立Webページで提供しています。ダウンロードの上、ドライバをアップデートしてください。アップデート後にはサーバの再起動が必要となります。作業時間は1台あたり約15分です。

次の日立Webページから対策版のドライバをダウンロードしてください。
対策版ドライバをダウンロードの上、ダウンロードファイル内のReadmeを参照し対策版ドライバを適用してください。

対象製品

対象製品名 SN1100Q 16Gb 1port ファイバーチャネル ホスト バスアダプタ(TQ-CNC-P9D93A)
SN1100Q 16Gb 2port ファイバーチャネル ホスト バスアダプタ(TQ-CNC-P9D94A)
SN1600Q 32Gb 1port ファイバーチャネル ホスト バスアダプタ(TQ-CNC-P9M75A)
SN1600Q 32Gb 2port ファイバーチャネル ホスト バスアダプタ(TQ-CNC-P9M76A)
対象装置 HA8000V/DL360 Gen10
HA8000V/DL380 Gen10
HA8000V/DL580 Gen10
HA8000V/ML350 Gen10

発生条件

  1. ストレージ装置のポートやコントローラーで一時的な障害(故障)が発生した。
  2. 大量のI/Oトラフィックを実行しストレージ装置が応答出来なくなった。

等により、ストレージ装置の回復動作(リセット)が実行された場合に発生する可能性があります。

対象バージョン

RHEL 6: 8.07.00.50.06.0_k6 以前
RHEL 7: 8.07.00.50.07.0_k6 以前

対象OS

Red Hat Enterprise Linux Server 6.9(64-bit x86_64)
Red Hat Enterprise Linux Server 7.3(64-bit x86_64)
Red Hat Enterprise Linux Server 7.4(64-bit x86_64)

更新情報

2018年03月30日

本ページで記載している内容を予告なく変更することがありますので、あらかじめご了承ください。