クラウドストライクによる大規模障害の原因と対策をpiyokango氏に聞く 予防策と復旧対応、注意すべき二次被害
2024年7月19日、米国IT企業のクラウドストライク合同会社(CrowdStrike)が提供するセキュリティソフトウェアの不具合を発端として、WindowsOSが搭載された端末におけるシステム障害が世界的に発生しました。
その影響範囲は、PCなどのデバイスのほか、店舗のPOSレジや交通機関のシステムなどにも及んでおり、クラウドストライクのCEOが「自動的に回復しない一部のシステムについては、復旧に時間がかかるかもしれない」と説明する事態となりました 1。
今回のような大規模なシステム障害に対して、企業はどのような予防策をとることが考えられるでしょうか。また、システム障害が発生した場合を想定して、どういった事前準備を行っておくべきなのでしょうか。システム障害やセキュリティインシデントに関する話題を発信するブログ「piyolog」の運営者でありセキュリティ専門家のpiyokango氏に聞きました。
規模は違えど、類似のシステム障害はしばしば発生する可能性がある
7月19日に、クラウドストライクが提供するセキュリティソフトウェアの不具合を発端とした、大規模なシステム障害が発生しました。発生した事象とその影響について教えてください。
今回の事象は、クラウドストライクが提供するセキュリティソフトウェアで更新された設定ファイルに問題があり、障害が発生したというものです。一般に、外部から取得したデータに不具合が生じた場合はソフトウェア内で適切に例外処理がされますが、今回はクラウドストライクも想定していない問題だったことから、Windowsのシステムにまで影響が波及し、ブルースクリーンの発生に繋がりました。具体的には、日本時間の2024年7月19日13:09〜14:27のあいだにオンラインに接続しておりアップデートを受ける状況にあったWindows端末で、ブルースクリーンが発生する可能性があったとされています。
その後、クラウドストライクは今回の問題に対するインシデント事後のプレレビューや根本原因分析の結果を公開しています 2。そこでは設定ファイルの問題を開発中に発見できなかった経緯について説明がされており、テストプロセスの改善を再発防止にあげています。
クラウドストライク合同会社「Windowsホスト向けFalconコンテンツ更新に関する技術情報」(2024年7月20日、2024年8月7日最終確認)
今回問題になったクラウドストライクのソフトウェアは導入後の運用にも相応の体制が必要となることに加え、万が一侵入された際も迅速に対応をとることが求められる重要インフラの事業者や政府機関のように、社会的にクリティカルなミッションに関わる分野で広く採用されています。マイクロソフトが今回のインシデント後に公表した情報によれば、影響を受けたWindows端末は推計で約850万台であり、すべてのWindowsマシンの1%未満ということですが 3、クラウドストライクのソフトウェアが採用されている企業の規模や業種の特性により、社会全体に広く影響が生じました。
報道では「クラウド利用によるリスクが露呈された」とする論調も見られました 4。
たとえば、今回のシステム障害の原因となったソフトウェアは「EDR」機能を備えていましたが、これは、エンドポイントの各端末にエージェントソフトウェアを入れて脅威の検知・対応を行うというセキュリティソリューションです。各端末から上がってくる情報を、クラウド上で分析したり、ダッシュボードなどから脅威の検知・確認のために参照する仕組みになってはいますが、IaaS・PaaSのようなクラウドサービスに該当するかと問われれば、多くの方が「そうではない」と考えるものだとは思います。今回のシステム障害も、あくまで各端末上におけるソフトウェアの不具合に起因するものでした。
今回のようなシステム障害は、今後も起こり得ると思われますか。
規模の面では、今回のように世界的に影響が及ぶほどのシステム障害はそうそう起こらないと思います。一方で、発生した事象という観点では、大小こそあれ似たようなシステム障害が起こる可能性はあるでしょう。たとえば、ブルースクリーンの発生原因についてWebで検索すると、セキュリティソフトが影響を与えている可能性があるとする情報がたくさん出てきます。
また最近は、自社のみでシステムを運用する企業は、限定的になってきています。業務の委託先や取引先などのサプライチェーン上で発生したインシデントが、自社のシステムやビジネスに影響を及ぼすケースも起こり得ます。
過去の類似事例としては、2005年にトレンドマイクロ株式会社が、コードミスのあるウィルスパターンファイル(ウィルスを検出するための情報を記録したファイル)を配布してしまったことがありました 5。また、正規のソフトウェアを「怪しいもの」として誤検知してしまう不具合もよく見られます。2010年にはMcAfee製品でWindowsのシステムファイルをウィルスとして誤検知した不具合がありましたし 6、最近でも2022年にMicrosoft DefenderがGoogle Chromeをマルウェアだと誤検知してしまうという事象がありました 7。今回の事案をレアケースとして扱うのではなく、この類のシステム障害に巻き込まれる可能性はあると想定しておくべきでしょう。
システム障害対応と限定せず、事業継続の観点から対策を
企業として、今回のようなシステム障害による影響を受けないための予防策はあるのでしょうか。
本件について、クラウドストライクが障害発生の経緯を明らかにしていますので 8、まずはそれを参考として、自社が使っているセキュリティソリューションで同じような事態が起こり得るのかを、各ベンダーに確認してみることをおすすめします。セキュリティソリューションの多くは、挙動の監視や検知などを行うために、企業で稼働する各システムと密接に関連して動いていますから、「このセキュリティソリューションはシステムには影響しません」とはっきり言い切れるベンダーは多くはないと思います。「問題が起こる可能性が考えられる」と回答があった場合には、どこにどんな影響が生じ得るかを整理し、事業継続への深刻な影響が及ばないように対応策を事前に用意しておく必要があるでしょう。
たとえば今回のシステム障害では、Windows端末が一斉に使えなくなったことで、社内のどこに問い合わせたらいいのかが分からないという状況に陥った人も多いようです。トラブル時の連絡先を周知できているか、緊急連絡の手段を確保できているかなどは確認しておくとよいでしょう。また、緊急連絡の体制が整備されている場合でも、担当者が変わっていたり、退職したりしていることもあり得ますので、今回のシステム障害をきっかけとして点検し、必要があればアップデートしておきましょう。有償のサービスなどを導入しなくても、こうした対策であればすぐに動くことができるかと思います。
ソフトウェアのアップデートに関して、まず小規模にアップデートを適用・展開してみて、そこで問題がなければ広く展開するという方法は、WindowsOSのアップデートなどで企業が比較的よく採用している方法です。ただし、今回のようなソフトウェア単体にはそうした方法をとるための機能が備わっていない可能性が考えられます。また、自動アップデートと比べて時間も費用もかかりますから、企業が利用する多くのソフトウェアのアップデートでは、この方法をすべてに適用するのは難しいかもしれません。
システム障害が発生した際に使用するための予備の端末を用意することも考えておいたほうがよいでしょうか。
予備の端末を確保しておくことも対策になり得ますが、「システム障害対応用」などと用途を限って用意するというよりは、広く事業継続の視点から検討したほうがよいと思います。たとえば、予備端末といっても、現在社内で稼働している端末と同じ台数が必要なわけではありません。本来稼働すべき端末が復旧するまでのあいだ、なんとか事業を継続するために必要な台数を明らかにしたうえで端末を確保するべきでしょう。
また、予備端末については、有事にそれが必要となる場所に物理的にどう届けるか、どう配置しておくかも検討しておかなければなりません。特に、今回のシステム障害で影響を受けたような大企業であれば、1拠点だけで事業を行っているケースは稀だと思います。日本各地に拠点がある企業でも、メンテナンスの観点などから1拠点に予備端末を配備しておく場合があると思いますが、離れた拠点、複数の拠点でインシデントが発生した際に予備端末をどう届けるのか、それにはどのくらいの時間がかかるのかなどを想定しておく必要があるでしょう。
万が一、業務で使用する端末が使えなくなった場合にどう事業を継続するのか。それを考えるうえでのシナリオの1つとして、自然災害やランサムウェア被害とともに、今回のようなシステム障害を想定しておくのはよいかもしれません。
今回のシステム障害対応でも、拠点をまたいだ復旧に苦慮した企業が多いようです。
今回のシステム障害からの復旧にあたって、クラウドストライクからの案内によれば、ブルースクリーンが出た端末を一度セーフモードで立ち上げて、不具合があったファイルを取り除くことになります。しかし、Windowsが提供するドライブ暗号化のための機能である「BitLocker」を利用している場合は、まずBitLockerの回復キーを入力しなければセーフモードでの起動ができません。そのため、BitLockerを利用していた企業では、影響を受けた端末1台ごとに回復キーの入力が必要となります。マイクロソフトからは回避策も公表されていますが 9、その手順は複雑です。遠方の拠点に対して端末の回復キーをどう伝えるかについて、頭を抱えた担当者も多かったのではないでしょうか。
BitLockerの回復キー入力画面(イメージ)
この回復キーは長くランダムな文字列であるため、口頭で上手く伝えることが難しく、システム管理者が各端末の回復キーを把握できていたとしても、遠方の事業所や工場に伝えるためには工夫が必要となります。PCなどの端末が使えないとなると、主な連絡手段として電話が考えられますが、企業が保有する端末は数が多いこともあり、回復キーを1台分ずつ口頭で伝えるのは現実的ではありません。
1つのアイデアとして、自然災害時のための安否確認システムを導入している企業であれば、今回のような大規模なシステム障害が発生した時に、それを連絡手段として流用できないかを調べておいてもよいかもしれません。BitLockerの回復キーの伝達に関する問題に限らず、システムや端末に問題が生じた際に、情報システム担当者から各ユーザーに向けて速やかに連絡したり復旧できる手順が整備されているかについても、確認しておいたほうがよいでしょう。
システム障害の発生時にはSNSへの投稿内容に注意
今回のシステム障害自体の影響に加えて、二次被害が発生する可能性は考えられますか。
今回、Windows端末でのブルースクリーンの発生に関する、SNSでの投稿・拡散が目立ちました。自身が使用する端末やシステムに障害が発生したことをSNSなどで発信することは危険を伴います。
「ブルースクリーンが自社でも発生している」などとする投稿することは注意したほうがよいと、発生当日にXで呼びかけましたが、たとえば今回の件でいえば、自社でシステム障害が起きているという事実が公になるだけでなく、利用しているセキュリティソリューションまで知らせてしまうことになります。システム障害やトラブルが起こったときに、「ウチの会社だけですか?」「他に同じ症状の人はいますか?」などとSNSに投稿したくなる気持ちも分かりますが、適切な行動とはいえません。情報システム部門やリスク管理部門の方々は、今回の件をきっかけとして、社内でのセキュリティ教育が適切になされているかを見直してもよいかもしれません。
今回の大規模なシステム障害に便乗するかたちで、「修正プログラム」と称してマルウェアを配布した例や、クラウドストライクを装ったサポート詐欺なども発生しています 10。クラウドストライクを導入している企業だと知られることによって攻撃者に狙われる可能性も考えられますので、二次被害が出ないようにするためにも、リテラシーを高めるための教育は非常に重要だと感じます。
本件を念頭に、セキュリティ業務に携わる方にメッセージをいただけますか。
やはり事前の準備が非常に重要です。今回、システム障害の影響を受けた組織を見ていると、復旧が早いところもあれば、まだ影響が続いているところもあるようです。その差の大きな要因の1つとして、事前の想定・対応がどれぐらいできていたかもあるでしょう。幸い、今回は巻き込まれなかった組織の方々も、この機会にできるところから、不測の事態を想定した準備に取り組んでいただけたらと思います。
ありがとうございました。
piyokango
セキュリティインコ。インシデントや脆弱性などセキュリティ関連の話題に目がなく、年中追いかけつつ、気の向くままに調べたり、まとめたりすることに従事。CISSP。Twitter:@piyokango
(取材:UNITIS編集部、文:渡邊智則)