機械学習のセキュリティはビジネスに不可欠です
ML セキュリティには、機密データが公開されるリスクを軽減するという、すべてのサイバーセキュリティ対策と同じ目標があります。 悪意のある人物が ML モデルまたはそれが使用するデータに干渉すると、そのモデルは誤った結果を出力する可能性があり、せいぜい ML の利点が損なわれ、最悪の場合、ビジネスや顧客に悪影響を与える可能性があります。
Capital One の機械学習プラットフォーム担当バイス プレジデントである Zach Hanif 氏は、次のように述べています。 Hanif 氏は、規制された業界 (金融サービス) で働いており、追加レベルのガバナンスとセキュリティを必要としていますが、ML を採用しているすべての企業は、そのセキュリティ プラクティスを検討する機会を利用する必要があると彼は言います。
Capital One のサイバー エンジニアリングおよび機械学習担当副社長である Devon Rollins 氏は、次のように付け加えています。 ML ツールがビジネスで果たす役割と、ユーザーの結果に直接影響を与える方法を考えると、ML ツールの大規模な展開が重要であると想定しても問題ありません。」
心に留めておくべき新しいセキュリティの考慮事項
ML システムを保護するためのベスト プラクティスは、他のソフトウェアまたはハードウェア システムのベスト プラクティスと似ていますが、ML の採用が増えると、新しい考慮事項も提示されます。 「機械学習は、さらに複雑なレイヤーを追加します」と Hanif 氏は説明します。 「これは、組織がまったく新しいベクトルを表すことができる機械学習ワークフローの複数のポイントを考慮する必要があることを意味します。」 これらのコア ワークフロー要素には、ML モデル、それらのモデルとそれらが使用するデータに関するドキュメントとシステム、およびそれらが可能にするユース ケースが含まれます。
また、ML モデルとサポート システムは、最初からセキュリティを念頭に置いて開発することが不可欠です。 エンジニアが、プログラムのすべての側面をコーディングするのではなく、ソフトウェア コミュニティによって開発された自由に利用できるオープン ソース ライブラリに依存することは珍しくありません。 これらのライブラリは、多くの場合、安全なコードの記述に精通していない可能性のあるソフトウェア エンジニア、数学者、または学者によって設計されています。 「高性能または最先端の ML ソフトウェアを開発するために必要な人材とスキルは、セキュリティに重点を置いたソフトウェア開発と常に交差するとは限りません」と Hanif 氏は付け加えます。
Rollins 氏によると、これは ML モデルに使用されるオープンソース コード ライブラリをサニタイズすることの重要性を強調しています。 開発者は、情報セキュリティ ポリシーの指針となるフレームワークとして、機密性、整合性、および可用性を考慮することを検討する必要があります。 機密性とは、データ資産が不正アクセスから保護されることを意味します。 完全性とは、データの品質とセキュリティを指します。 また、可用性により、適切な許可されたユーザーが、目前のジョブに必要なデータに簡単にアクセスできるようになります。
さらに、ML 入力データを操作してモデルを侵害することもできます。 リスクの 1 つは、推論の操作です。これは、基本的にデータを変更してモデルをだますことです。 ML モデルは人間の脳とは異なる方法でデータを解釈するため、データは人間には認識できない方法で操作される可能性がありますが、それでも結果は変わります。 たとえば、コンピュータ ビジョン モデルを侵害するために必要なのは、そのモデルで使用されている一時停止標識の画像の 1 つか 2 つのピクセルを変更することだけかもしれません。 人間の目にはまだ一時停止の標識が見えますが、ML モデルはそれを一時停止の標識として分類しない可能性があります。 あるいは、一連のさまざまな入力データを送信してモデルをプローブし、モデルがどのように機能するかを学習することもできます。 外部の攻撃者は、入力がシステムに与える影響を観察することで、悪意のあるファイルを偽装して検出を逃れる方法を見つけ出す可能性がある、と Hanif 氏は説明します。
リスクのもう 1 つのベクトルは、システムのトレーニングに使用されるデータです。 第三者がトレーニング データを「汚染」して、マシンが何かを誤って学習する可能性があります。 その結果、トレーニング済みのモデルは間違いを犯します。たとえば、すべての一時停止標識を譲歩標識として自動的に識別します。