「編集を適切に行ったとしても、テキストを削除したとしても、編集されたコンテンツに依存する多くの潜在的な情報が存在し、それでも情報が漏洩する可能性があります」とレフチェンコは言います。 「PDF 内の名前を秘匿化した場合、攻撃者がなんらかのコンテキスト (これがアメリカ人であることを知っている) を持っている場合、攻撃者はその名前を復元するか、候補の非常に小さなリストに絞り込むことができる可能性が高くなります。 」
Edact-Ray は、 グリフ (広く、文字または文字) とその配置。 「多くの人にとって、文字「L」は文字「M」よりも細いことは明らかであり、文字「L」だけを編集すると、 「M」の文字だけです」とブランドは言います。 このツールは基本的に、編集のサイズと文字の位置を定義済みの単語の「辞書」と自動的に比較して、何が置き換えられたかを推定することができます。
このソフトウェアは、元のドキュメントがどのように作成されたか (Microsoft Word など) を推測し、ドキュメントの詳細をリバース エンジニアリングすることによって構築されます。 「それは、テキストがどのようにレイアウトされたかを示しています」とレフチェンコは言います。 「それがわかれば、そのツールがテキストをどのようにレイアウトしたか、ドキュメントの残りの部分にどのように、どのような情報を配置したかについてのモデルが得られます。」 ここから、元のテキストが何であったかをシミュレートし、一連の潜在的な、または可能性の高い一致を生成することが最終的に可能になります。 テスト中、チームは 1 秒あたり 80,000 回の推測を排除することができました。
「たとえば、10 ポイントの Calibri を使用して Microsoft Word セットによって生成された PDF から姓を編集すると、すべてのケースの 14% で名前を一意に識別するのに十分な残存情報が残ることがわかりました」と、チームの研究論文は結論付けており、これは次のように付け加えています。 「脆弱な編集の範囲の下限」になる可能性があります。
編集技術を研究しているリーハイ大学のコンピューター サイエンス教授 Daniel Lopresti は、この研究は印象的だと述べています。 「文書のタイポグラフィのほとんど目に見えない側面を悪用するなど、改訂ツールとそれらを破る方法の包括的な研究を提示します」と、研究には関与していない Lopresti は述べています。 それが描く絵は怖いです。 あまりにも多くの場合、編集は不適切に行われます。」
米国司法省、米国裁判所制度、監察官庁、アドビなど、調査で明らかになった現実世界での編集の失敗の影響を受けた組織の大部分は、『WIRED』のコメント要請に応じなかった。 ブランドと研究論文は、多くの組織がチームの研究に関与していると述べています。
Microsoft は、PDF に変換された Word 文書からデータが漏洩することに対処していません。 「顧客はドキュメントを PDF として保存できますが、情報を検閲または不明瞭にするのは墨消しツールの役割です」と、Microsoft のシニア ディレクターである Jeff Jones 氏は述べています。 Jones 氏は、共有するフォーマットに変換する前に、データとそのファイルを「確認」する必要があると付け加えています。