仕事

まー、いろんなことがありやがる。
電源関係でトラブルが3つ。

停電作業前のUPS電源OFF

夜間に、ある電源系統で停電作業があるという連絡があった。停電作業の開始は午前0時だが、その前の夕方5時過ぎにその系統周辺のサーバ類を統括しているHUBのUPSPINGが通らないことをNAGIOSが検出しメールしてきた。その後その配下のサーバ類へのPINGが通らないというNAGIOSからの通報があった。
結果的に言えば、夜間停電作業に備えて機器の電源を落とすついでに気を利かせてHUBのUPSの電源まで落としたためだった。
原因がわかるまで1時間程度かかったのは、

  1. 停電工事の影響を疑い、施設管理部門に確認を入れると17時に電源が落ちると誤った情報が帰ってきたこと。
  2. NAGIOSから通知された障害危機の中でもっともプリミティブな原因の確認を後回しにしたこと。
  3. 障害機器の正確な位置情報が直ぐにわかる状態ではなかったこと。

まあ、1は論外だけど、結構あるような気がする。正確な情報共有が関係者の間でされていなくて情報の共有が伝聞によりなされていた。
2は障害に対応した人間が眼前の枝葉末節な障害に目を奪われてHUBの障害、UPSのPOWEROFFを考えるまで時間がかかったこと。
3はNAGIOS上に表示された機器のロケーション情報がいい加減でUPS原因を疑って確認を行った際に別な場所の正常なUPSを見て一度はUPSが正常であると判断してしまった。
対策としては、UPSに「電源を落とすな」との張り紙をしたのが1番。2はNAGIOSのSTATUSMAPの有効活用。3は正確なロケーション情報をNAGIOS上に載せるようにする。
NAGIOSはWEB表示では日本語が出るが、メールになったときは2バイト系の文字はすべてはじかれて日本語が表示されない。メールは通知のみに使って実際のロケーション確認にはWEBのほうで見るというのが良いのか。

UPS障害

上の事件の後に、私がNET&COMに行っている間におきた障害。
UPSのバッテリが切れて手配中だったんだけど、そのUPSが突然壊れた。A*C社製の1500のやつだけど思いっきり落ちた。UPSは、そりゃ機械だから壊れる日も来るんだろうけど、うーん、UPSが障害で落ちるのはご勘弁かな。複数台のUPSを準備して機器のほうも電源2重化?サーバ類はあるだろうけどHUBで電源の2重化に対応しているのはかなり高価なHUBからでしょう?対応不能だなー?

電源障害

これは元々のシステムのローカライズの設計を行ったベンダの設計ミスではないかと。


障害のほかにも、組織の大規模な変更、それによる山のような数の異動。そもそも組織のマスタ自体の大幅な健康。新入職員の登録。退職者のデータ整理。基幹系ネットワークの更新作業。2つの部門システムのCutOver。
これから4月いっぱいまでオオゴトです。