DOORS DX

ベストなDXへの入り口が
見つかるメディア

生成AI/LLM技術最新トレンド|①モデルから知識を”忘却”する技術Unlearningとその限界 ②敵対的攻撃を劇的に減少させるシンプルなアプローチ

執筆者
公開日
2024.09.03
更新日
2024.12.10
生成AI/LLM技術最新トレンド vol.11 株式会社ブレインパッド アナリティクスコンサルユニット 崎山 栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM(LargeLanguageModels、大規模言語モデル)、およびGenerativeAI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/7/12時点の情報をもとに記載しています

【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題

本記事の執筆者
  • コンサルタント
    崎山 栞里
    SHIORI SAKIYAMA
    会社
    株式会社ブレインパッド
    所属
    アナリティクスコンサルティングユニット
    2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

モデルから知識を“忘却”する技術Unlearningとその限界

人間の脳にとって「忘却」は神経の健全性を維持するために必要な機能です。同様に機械学習モデルにとっても、学習したが機能に必須でないデータを削除(=忘却)することはシステムの安全性や一貫性の確保のために不可欠なのだそうです。
今回は、モデルから知識を削除する手段の一つとして知識の「Unlearning」に焦点を当てた論文を2つご紹介します。

LLMは大規模言語モデルというだけあり、非常に大量のデータを訓練データとして学習を行います。この大量のデータの中に、例えば機密情報、個人情報、著作権で保護されたコンテンツ、有害な情報…など、あまりLLMに学習させたくない情報が混じってしまっていた場合、どうしたらよいでしょうか。
モデルからそれらの影響を取り除くには、例えば以下のような手段が考えられます。

  • 訓練データから不要なデータを抜き、モデルを再訓練する
  • RLHF(人間のフィードバックによる強化学習)を用いて、人間にとって望ましくない出力をしないようにモデルを訓練する」

前者は莫大な訓練コスト、後者は計算コストや人間の大量かつ高品質なフィードバックが必要であり、いずれも大きなコストがかかることが課題です。
そこで注目され始めているのが「Unlearning」という手法です。

Unlearningとは、モデルが誤った出力をする際の誤りが訓練データに起因する場合に、モデルからそのデータの影響を削除することです。

元々はLLMから個人情報などを削除するためのメカニズムとして提案されていたのですが、その後、有害な機能や応答の削除、バックドアの削除、特定のトピックに関連する情報の削除、著作権で保護されたコンテンツの削除、ハルシネーション(AIが学習データにはない誤った情報を生成してしまう現象のこと)の減少など、様々な用途に利用されるようになりました。

ただ、現状のUnlearningの手法は不完全である旨が論文①、論文②のいずれでも述べられています。

欠点1:機密情報と一緒に一般的な知識までも喪失してしまう

モデルからUnlearningを用いて「J.K.ローリング」に関連する機密情報を削除しようとした例です。現状のUnlearningでは、例えば「J.K.ローリングが住んでいる場所」といった機密情報は削除できる一方、Unlearningの前には答えられた「J.K.ローリングの最も代表的な作品は何か?」という質問にもモデルが答えられなくなっています。
図出典:https://arxiv.org/pdf/2407.01920 p1より引用

論文①では、現在のUnlearningの手法は情報の削除に重きを置いていますが、どの知識を削除し、どの知識を保持すべきか?という境目をうまく分けられないことがあり、その結果一般的な知識の喪失までも引き起こしてしまうことが主張されています。

図は、モデルからUnlearningを用いて「J.K.ローリング」に関連する機密情報を削除しようとした例です。
現状のUnlearningでは、例えば「J.K.ローリングが住んでいる場所」といった機密情報は削除できる一方、Unlearningの前には答えられた「J.K.ローリングの最も代表的な作品は何か?」という質問にもモデルが答えられなくなっています。

この問題を解決するのが、論文①で提案されているベースモデル MemFlex と、Knowledge Unlearning with Differentiated Scope in LLMs (KnowUnDo)というベンチマークです。

Benchmarkconstruction(detailsareshowninSection2.2)
図出典:https://arxiv.org/pdf/2407.01920 p5より引用

MemFlexはモデルパラメータにおけるUnlearn Scope(削除範囲)とRetention Scope(保持範囲)を正確に特定し、機密情報だけを正確に削除することを可能にするモデルです。

KnowUnDo は知識削除手法の性能を評価するためのベンチマークです。著作権コンテンツやユーザープライバシーに関連するデータセットに基づき、対象範囲の知識をUnlearn Scope(削除範囲)とRetention Scope(保持範囲)に分類することができます。

KnowUnDo を用いて、既存の手法を用いてUnlearningされたモデルと MemFlex を比較しました。結果として、著作権・プライバシーいずれの領域においても MemFlex は良いスコアを示しています。

欠点2:Unlearningによる情報の削除は完全ではない

Unlearningを用いて情報を削除したとしても、モデルに対してプロンプト入力を行う段階で削除した情報が再導入され、まるで1度忘れた知識を知っているかのようにモデルがふるまうことがあるのだそうです。この現象を論文②ではUnUnlearningと呼んでいます。

UnUnlearningのしくみについて簡単に説明すると、任意の知識は知識の最小単位である公理と、複数の公理が基礎となり定義される定理に分けられます。例えば、「ねこ」(という定理)は、耳、目、尾(という公理)から定義されます。

例えば、「ねこ」(という定理)は、耳、目、尾(という公理)から定義されます
図出典:https://arxiv.org/pdf/2407.00106 p4より引用

「ねこ」をUnlearningしても、「耳が三角で、目がこのような特徴で、長細い尾をもった動物」のようにモデルに入力すれば、モデルはあたかも「ねこ」という知識を保有しているかのように答えてしまうのだそうです。

これは考え方次第でいかようにでも悪用できてしまいます。

例えば、作ってはいけない爆弾の作り方をモデルに尋ねたい攻撃者がいるとします。モデルを守る人はUnlearningを用いて「爆弾」という概念をモデルから忘れさせ、それによって「爆弾の作り方」を尋ねられてもモデルは答えられなくなります。ところが、攻撃者が「爆弾」という概念をモデルに残った知識のみを使って説明することで、モデルが爆弾の作り方を応答してしまいます。
図出典:https://arxiv.org/pdf/2407.00106 p4より引用

例えば、作ってはいけない爆弾の作り方をモデルに尋ねたい攻撃者がいるとします。
モデルを守る人はUnlearningを用いて「爆弾」という概念をモデルから忘れさせ、それによって「爆弾の作り方」を尋ねられてもモデルは答えられなくなります。ところが、攻撃者が「爆弾」という概念をモデルに残った知識のみを使って説明することで、モデルが爆弾の作り方を応答してしまいます。

では「爆弾」という公理だけでなく、爆弾を構成する複数の要素をすべて忘れさせてしまえばよいのでは?とお思いの方もいるでしょうが、そうすればモデルの知識量は大幅に落ち、結果モデルの汎化性能が大幅に失われてしまうと想定されます。
(例えば、爆弾を構成する要素のうち「熱」をLLMが忘れてしまったらどうなるでしょうか?)

また、「爆弾」「地雷」など危険な単語ひとつひとつを忘れさせたり、それに類する言葉を利用させないようにモデルに命じたとして、漏れなくガードすることは非常に困難です。というのも、有害なタスクやユースケースを事前に全て洗い出すことは難しいためです。

LLMの性能を踏まえるとUnlearningだけでコンテンツ規制をすべて行うのは難しいことが分かるかと思います。コンテンツフィルタリングに重点を置き、かつ削除した知識を再導入するような試みを抑制するようなアプローチが必要であると述べられています。

まとめ

2つの論文を踏まえると、よくあるUnlearningの手法はコンテンツの規制においては十分な方法でないことがわかります。

とはいえUnlearningは前述の通り、元々ユーザーが機械学習モデルから自分のデータを要請に応じて削除できるようにするプライバシーメカニズムであり、それ自体は特段の不安要素なく行うことができます。
Unlearningの有用性そのものが否定されるわけではないことにも留意が必要です。

出典:
https://arxiv.org/pdf/2407.01920
https://arxiv.org/pdf/2407.00106


敵対的攻撃を劇的に減少させるシンプルなアプローチ

機械学習モデルの認識を混乱させるようなモデルへの攻撃のことを「敵対的攻撃」といいます。敵対的攻撃を受けた結果、モデルが予想外の結果を出力したり、学習に用いたデータが流出したり、様々な悪影響が起こりえます。

LLMに対する敵対的攻撃を防ぐために、新しい手法として自己評価を活用した防御方法を提案するのが今回ご紹介する論文です。概要をご説明します。

生成モデルGに対し、Xという内容を入力した結果Yが生成されるとします。Xが無害な内容ならYを出力し、Xが有害ならGは「応答できません」のように回答するのが理想的な状況です。

今回ご紹介する自己評価を活用した防御方法は、以下の手順で行われます。

  1. モデルGとは別に評価モデルEを用意します
    ※今回のアプローチでは、GにEを組み合わせたチャットボットに対して入力を行います
  2. 評価モデルEは入力Xと出力Yを組み合わせて評価を行い、その組み合わせが有害かどうかを判断します
  3. もし有害な場合はチャットボットは応答を拒否します
自己評価を活用した防御方法の概要
図出典:https://arxiv.org/pdf/2407.03234 p1より引用

どうでしょうか。非常にシンプルではありませんか?
なお評価は入力Xのみ、Gによる出力Yのみ、XとY両方の3種類に対して行われます。
この方法の利点は、GとE両方に対する攻撃をも防げることです。さらに、モデル自体を微調整する必要が無いため低コストに実装することが可能です。

この手法を用いて、今回は敵対的サフィックスという敵対的攻撃に対する防御性能を実験しました。

ここで、敵対的サフィックスとは、特定の文字列やフレーズ(たとえば「!!!!」等)を入力の末尾に追加することでモデルに有害な出力を生成させる手法です。LLMは入力のわずかな変更に対して脆弱であり、本当にわずかなノイズを混ぜ込むだけで大幅に精度が落ちてしまう危険性があります。

例えばLLMチャットボットのテンプレートの最後にスペースを追加するだけで有害コンテンツを生成できるようになってしまうという報告* がありました。

*出典: https://arxiv.org/abs/2407.03232

実験の結果、サフィックスを含む攻撃に対して、攻撃成功率は最大で95.0%から0.0%にまで低下させることができたそうです。
一方、この手法を使わず、防御に特化するようファインチューニングされた専用のガードレイルはあまり性能が良くないことも分かりました。

敵対的サフィックスという敵対的攻撃に対する防御性能の実験
図出典:https://arxiv.org/pdf/2407.03234 p4より引用

別のLLMに安全/危険を判断させるだけで、敵対的攻撃の成功率を大幅に削減できることがわかりました。とてもシンプルなのに非常に堅牢で驚きました。

出典:https://arxiv.org/pdf/2407.03234


まとめ

最後まで読んでいただきありがとうございます。
今回は、モデルから知識を”忘却”する技術Unlearningとその限界、敵対的攻撃を劇的に減少させるシンプルなアプローチの2つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに!


このページをシェアする

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine