まだ9000文字ちかくかけるらしくてすげーなとおもいました。
<概要>Dドライブの複数のファイルにアクセスできなくなる障害が発生した。
<原因>本障害は、RAID1を構成するHDD装置1台に障害が発生し、RAID1により冗長化された双方のHDD装置に障害が伝播したことにより発生したものと認められる。
<障害の経過>1.障害の発生障害の発生したDドライブはHDD装置2台によるRAID1構成の記憶装置である。当日は障害の発生まで特に異常は発生せず作業を行っていた。障害発生時Dドライブ内の複数のファイルに対してアクセスできなくなる問題が発生した。
2.障害の対応障害発生時、OSのイベントログはファイルシステムの破損を示していた。HDD装置の物理障害と推測したがRAID1を構成する双方のS.M.A.R.T 値は正常値を示しており、シーゲイト社製のHDD装置のテストツールにおいても障害が認められなかったため、障害の発生しているHDD装置の特定することができなかった。管理者Nは導入から数年経過している稼働時間の長いHDDの問題と推測し、HDDを交換、RAID1の再構築を行った。
3.対応の経過チェックディスクによるファイルシステムの修復を行ったがその後も継続してOSはファイルシステムの破損を通知した。
4.障害の再対応管理者Nはもう一方のHDD装置の障害と断定し、本HDD装置を取り外し、先に取り外したHDD装置を使用してRAID1の再構築を行った。
5. 障害の収束HDDの換装、RAID1の再構築後はファイルシステムの障害が通知されず、ファイルの破損も広がることは無くなった。後日HDD装置のベンダであるシーゲイト社に装置の交換を依頼し、交換品が到着した。
6. 障害の復旧障害が発生したデータのうち、障害が確認でき、バックアックが存在するものについては復元を行った。
<必要と思われる再発防止策>RAID1構成以外に変更が即時反映されない隔離された記憶装置に定期的にバックアップを行う必要がある。