差分プライバシーを実装してデータ共有と協力を強化する

Cemubo vgnpne 0

Apps

従来、企業はデータプライバシーを保護するために、データマスキング（匿名化とも呼ばれる）に頼ってきました。基本的な考え方は、各記録からすべての個人識別情報（PII）を削除することです。しかし、数々の注目を集めた事件から、匿名化されたとされるデータでさえも消費者のプライバシーを漏洩する可能性があることが明らかになっています。

1996年、MITの研究者は、公開されている有権者登録データと医療記録を照合することで、マスクされたとされるデータセット内の当時のマサチューセッツ州知事の医療記録を特定しました。2006年には、テキサス大学オースティン校の研究者が、Netflixが公開した匿名とされるデータセットとIMDBのデータを組み合わせることで、数千人が視聴した映画を再特定しました。

2022年のNature誌の記事では、研究者らがAIを用いて、匿名とされるデータセットに含まれる携帯電話記録の半数以上をフィンガープリンティングし、再識別することに成功しました。これらの例はすべて、攻撃者が「サイド」情報を悪用して、マスクされたはずのデータを再識別できることを浮き彫りにしています。

これらの失敗は差分プライバシーにつながりました。企業はデータを共有する代わりに、データ処理結果にランダムノイズを組み合わせて共有するのです。ノイズレベルは、出力が攻撃者に標的に関する統計的に重要な情報を与えないように設定します。つまり、同じ出力が、標的が存在するデータベースから取得された場合も、標的が存在しなくても全く同じデータベースから取得された場合も、同じ結果になる可能性があります。共有されたデータ処理結果は誰に関する情報も開示しないため、すべての人のプライバシーが保護されます。

差分プライバシーの運用化は、初期の段階では大きな課題でした。最初の適用は、主にApple、Google、Microsoftといった大規模なデータサイエンスおよびエンジニアリングチームを擁する組織で行われました。技術が成熟し、コストが低下するにつれて、最新のデータインフラストラクチャを備えたすべての組織は、どのように差分プライバシーを実際のアプリケーションで活用できるようになるのでしょうか。

差分プライバシーは集計データと行レベルデータの両方に適用される

アナリストがデータにアクセスできない場合、差分プライバシーを用いて差分プライバシーに基づく集計データを生成することが一般的です。機密データには、プライバシー保護のためノイズを含む結果のみを出力するAPIを介してアクセスできます。このAPIは、単純なSQLクエリから複雑な機械学習トレーニングタスクまで、データセット全体を対象に集計を実行できます。

差分プライバシー保証による個人データ活用の典型的なセットアップ — 差分プライバシー保証を備えた個人データ活用の典型的な設定。**画像クレジット：** Sarus

この設定の欠点の一つは、データマスキング技術とは異なり、アナリストが個々のレコードを確認して「データの感触を掴む」ことができなくなることです。この制限を軽減する一つの方法は、データ所有者が元のデータセットの統計特性を模倣した偽データを作成し、差分プライバシーを備えた合成データを提供することです。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

ユーザーのプライバシーを保証するため、プロセス全体は差分プライバシーに基づいて実行されます。合成データから得られる情報は、集計クエリを実行する場合よりも一般的にノイズが多いため、合成データから集計を実行することは推奨されません。可能であれば、生データに対して差分プライバシーを適用した集計を行うことをお勧めします。

しかし、合成データはアナリストにとって使い慣れた見た目と操作性を提供します。データプロフェッショナルは、差分プライバシーを維持しながら、行レベルのデータにアクセスできるようになります。

適切なアーキテクチャの選択

データがアナリストから分離される方法は、データが保存されている場所によって異なります。主なアーキテクチャは、グローバル差分プライバシーとローカル差分プライバシーの2つです。

グローバルな仕組みでは、中央機関が多数の個人からデータを集約し、差分プライバシーに基づいて処理します。これは、米国国勢調査局が2022年に全米の人口に関する国勢調査データを公開した際に行ったことです。

ローカル設定では、データはユーザーのデバイス上に残り、データ処理者からのクエリは差分プライバシーに基づいてデバイス上で処理されます。これは、例えばGoogleのChromeやAppleのiPhoneで採用されています。

より安全ではあるものの、ローカルアプローチはユーザーあたりのノイズが大幅に増加するため、小規模なユーザーベースには適していません。また、数千、数百万台の独立したユーザーデバイス間ですべての計算をオーケストレーションする必要があるため、導入もはるかに困難です。

ほとんどの企業は、データ処理が可能な自社サーバー上に既に生のユーザーデータを収集しています。こうした企業にとって、グローバル差分プライバシーは最適なアプローチです。

ローカルDPでは、各デバイスが独自のデータを処理し、ローカルでノイズを追加します。アナリストは最終的にすべてのノイズのある出力を集約して、必要な洞察を再構築します。 — ローカルDPでは、各デバイスが独自のデータを処理し、ローカルでノイズを追加します。アナリストは最終的にすべてのノイズ出力を集約し、必要な洞察を再構築します。**画像クレジット：** Sarus

差分プライバシーによるデータ共有

差分プライバシーはデータ共有にも活用できます。当然のことながら、差分プライバシーが確保されたデータセットを共有した上で、レコードの照合が可能であると期待すべきではありません。これはプライバシーの約束を露骨に侵害することになります（差分プライバシーは、実際にはそのようなことが決して不可能であることを保証しています）。そのため、実務家には2つの選択肢が残されます。

最初の選択肢は、差分プライバシーが確保された合成データを共有することです。しかし、合成データセットは、事前に設定されたクエリや指標のセットに対しては正確になるようにトレーニングできますが、それ以外の新しいクエリに対しては、その正確性が保証されません。そのため、合成データに基づいて得られた洞察を意思決定に用いるのはリスクを伴う可能性があります。さらに、純粋に合成されたデータセットでは、ユーザーをマッチングすることは明らかに不可能です。

2つ目の選択肢は、データ自体ではなく、差分プライバシーを備えた集約メカニズムを介して機密データへのアクセスを共有することです。得られる洞察は、差分プライバシーを備えた合成データから推定した場合よりも、通常、はるかに正確です。さらに、個人のマッチングも依然として可能です。

アナリストは、まず外部のユーザーレベルデータと機密性の高いユーザーレベルデータを結合するクエリを発行し、差分プライバシーを考慮した結合データに対してクエリを実行し、そこから真に匿名性の高い洞察を導き出すことができます。このアプローチは、両方のメリット、つまり各レコードの粒度を完全に維持しながら最適なプライバシーを実現するというメリットをもたらします。

ただし、これには一つの前提があります。元の機密情報は機密情報として保持されますが、新しい外部データは計算中にサードパーティのシステムに移動される必要があるということです。このアプローチは、GoogleとFacebookによって「データクリーンルーム」という名称で普及しました。

両方のデータセットの機密性を保護するために暗号化技術を利用するバリエーションもありますが、この記事の範囲外です。

差分プライバシーベースのシステムは、プライバシーの約束を破ることなく、一致したユーザーに関する知識の共有を可能にする。 — 差分プライバシーベースのシステムは、プライバシーの約束を損なうことなく、一致したユーザー間での知識共有を可能にします。**画像クレジット：** Sarus

独自ソフトウェアとオープンソースソフトウェア

差分プライバシーを実装する際には、ゼロから始めるべきではありません。実装ミスがプライバシーの保証に壊滅的な影響を与える可能性があるからです。オープンソースには、差分プライバシーの基本的な構成要素を提供するライブラリが数多く存在します。

主なものは次のとおりです。

OpenDP (SmartNoise Core および SmartNoise SDK): ハーバード大学が主導するイニシアチブで、あらゆる SQL クエリを差分プライベートクエリに変換するための差分プライベートプリミティブとツールを提供します。
Google DP と TensorFlow プライバシー: 分析と機械学習のプリミティブを提供する Google オープンソースプロジェクト。
OpenMined PyDP: Google DP 上に構築された Python ライブラリ。OpenMined
PipelineDP: これも Beam 上の Google DP のプライバシー上に構築されています。
Pytorch Opacus: Pytorch での差分プライバシーディープラーニングのための Facebook プロジェクト。
PyVacy: Chris Waites より。
IBM Diffprivlib: 差分プライバシープリミティブと機械学習モデルを備えた IBM イニシアチブ。

ただし、安全な暗号化アルゴリズムにアクセスできるだけでは安全なアプリケーションを構築するには不十分であるのと同様に、差分プライバシーの安全な実装にアクセスできるだけではプライバシーが保証されたデータレイクを実現するには不十分です。

一部のスタートアップ企業は、既成の独自ソリューションを提案することでこのギャップを埋めています。

Leapyearは、データベースの差分プライバシー処理を提案するために5,300万ドルを調達しました。Tonicは、開発者が同様の数学的保護で生成された偽のデータを使ってソフトウェアを構築・テストできるようにするために4,500万ドルを調達しました。

6,800万ドルの資金を調達したGretelは、差分プライバシーを活用したプライバシーエンジニアリングをサービスとして提案するとともに、合成データ生成モデルの一部をオープンソース化しています。データプライバシーソリューションであるPrivitarは、これまでに1億5,000万ドルを調達しており、現在、他のプライバシー技術に加えて差分プライバシーも採用しています。

Datafleetsは、LiveRampに6,800万ドル以上で買収される前は、差分プライバシーを活用した分散データ分析を開発していました。著者の一人が共同創業者であるSarusは最近Y Combinatorに加わり、既存のワークフローを変更することなく、差分プライバシーを活用したデータウェアハウスの強化を提案しています。

結論は

差分プライバシーは、プライバシー保護を強化するだけでなく、部門間や企業間の連携を促進するデータ共有ソリューションにも活用できます。その可能性は、時間と手間のかかるプライバシーリスク評価なしに、自動的に保証を提供できる点にあります。

かつてのプロジェクトでは、データパイプラインに実装するために、カスタムリスク分析とカスタムデータマスキング戦略が必要でした。差分プライバシーは、コンプライアンスチームの負担を軽減し、数学とコンピューターがアルゴリズムに基づいて、ユーザーのプライバシーを安価、迅速、かつ確実に保護する方法を決定します。

マッキンゼーの推定によると、データ連携によって生み出される価値は 3 兆ドルに達し、その一部を獲得しながら機敏性を維持したいと考えている企業にとって、差分プライバシーへの移行は極めて重要になります。

Posted by Cemubo