人為故障とは、インフラなどの正常に動いていてあたりまえの装置が、工事などで人為的なヒューマンエラーによって利用できないことを示しています。
先日、NTT西日本から、東海地方の4県で緊急通報に障害があったと説明がありました。9月16日の固定電話などの通信障害について会見があり、原因は「サーバー工事での設定ミス」と報道されていました。また、緊急通報ができなかったために救急搬送が遅れ人が亡くなったともニュースで流れてました。
電話は緊急回線(110番、119番)と繋ぐために使われるインフラなので、人命に関わるインフラを提供しているのです。使えて当たり前、使えなくなると一大事になるのです。
今日は、そんなインフラで人為故障を発生させた場合にどのような対処を行っていくかを説明したいと思います。
前提として、工事ミスを犯した社員は、工事ミスをした社員は、とても落ち込んでいます。自分の行為でみんなに迷惑をかけていると責任を感じているのです。反省はしてもらわないといけませんが、責任追及するような話はしません。
まず、品質管理担当とその作業に関わっている責任者を集めて対策チームを構築します。
対策チームが整うと、管理者も含めて最初に事情聴取を行い、故障に至った経緯を確認します。その際、失敗した社員を責めないように心がけてヒアリングします。あくまでも組織的に同じ失敗をしないために事実関係を確認するために実施していることを伝えます。
その事実からら時系列的に実施した行為を書き出し、どの工程にミスを引き起こした要因があるかを対策チーム内で掘り起こして行きます。人、物、金、情報を意識して要因を分析します。
それが終わると、複数の要因が潜んでいたことが分かります。その一つひとつの要因に対して、なぜなぜ分析を行い真の問題点を洗い出します。このなぜなぜ分析とは、たとえば「危険工程とは思わなかったから」それはなぜ「手順書に危険工程の記載がなかった」それはなぜ「手順書を作成する時のレビューをしていなかった」と真の原因にたどり着くための手法です。
それを複数ある要因に対してすべて同様に分析すると、人の問題だったり、物の場合など、いろんな箇所に問題点があったことが見えてきます。
そして、それぞれの問題点に対して、どのような対策が有効かを検討し、何をいつまでに対処するかを決めて行きます。
これを速やかに実施し、資料化してお客様にお詫びに伺うのです。
また、対策実施後も定期的にその対策が正常に機能しているかを品質管理担当が監査します。
私の職場では、交換機のバグを対処するプラグインを全国の交換機(約1600ユニット)に投入する担当がありました。その仕事も正常にできて当たり前、もし、間違えば大きな影響が出る作業でした。その担当の係長も若い時に人為故障を経験したことがあり、二度と同じ失敗をしないために心がけていることがあると言いました。「私は、作業者が『うん?』『あれ?』と言った言葉を常に注意している」そういった言葉が出てくる時は、何か作業に問題が発生していると業務を俯瞰して見守っているのです。その話を聞いたとき、この係長がこの担当を守っていると感じました。


コメント
Web関連のプログラマをしていました。
「車載コンピューターなどのプログラムのバグは人が死ぬことがあるが、Webのバグは人が死ぬことはない」といいますが、不具合で死ぬような思いをしたことはあります。
人命に関わるシステムの人為故障はほんんとに怖いものです。
しかし、どんな仕事も人が関わると、人為故障につながるミスが潜んでいます。
ある幹部からは、人はミスを犯すことを前提にミスを犯しても大きな事故にならない対策を施すことが大切だと言われてました。