DOORS DX

ベストなDXへの入り口が
見つかるメディア

生成AI/LLM技術最新トレンド|①Grounding DINO 1.5 Pro/Edge公開 ②RAGの脆弱性について学ぶ ③LLMはファインチューニングによって新しい情報を得ることができるか?

執筆者
公開日
2024.06.18
更新日
2024.09.04
生成AI/LLM技術最新トレンド vol.4 株式会社ブレインパッド アナリティクスコンサルユニット 崎山 栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM(LargeLanguageModels、大規模言語モデル)、およびGenerativeAI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/5/23時点の情報をもとに記載しています

【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題

本記事の執筆者
  • コンサルタント
    崎山 栞里
    SHIORI SAKIYAMA
    会社
    株式会社ブレインパッド
    所属
    アナリティクスコンサルティングユニット
    2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

1. Grounding DINO 1.5 Pro/Edge公開

プロンプト(生成AIの文脈では、ユーザーがAIと対話する際にユーザーが入力する指示や質問のこと)から、物体検出を行えるモデルGrounding DINOの新しいバージョンが発表されました。

Grounding DINOとはどんなモデルか?を簡単にご説明します。
そもそも画像解析の分野では、コンピュータに画像内のオブジェクトの意味を理解させることが難しいという課題がありました(これをシンボルグラウンディング問題といいます)。
例えば「レモン」という言葉を人間が見ると、果物のレモンの概念(例えば黄色い、酸っぱい、など)を簡単に想起できる一方、コンピュータは「レ」「モ」「ン」という文字列でしか認識できません。レモンという記号(今回は文字列)とレモンの概念が結びついていないからです。

この問題を解決する手段はこれまでも様々な手法が提案されていたのですが、先日新たにGrounding DINOというモデルが提案されました。こちらは、GLIP(Grounded Language-Image Pre-training)と呼ばれる画像とテキストの対応関係を学習する手法とDINOというモデルを組みあわせたモデルで、自然言語と画像の対応関係をとるのに長けています。

今回のアップデートでは、モデルのサイズとモデルの訓練用データセットの両方を大きくすることによって、画像や動画からより正確に、しかもリアルタイムでオブジェクトを理解し検出できるようになりました。さらに何を検知してほしいのかを自然言語で指示することができます。

Figure 1: Grounding DINO 1.5 series overall framework.
図出典:論文 https://arxiv.org/abs/2405.10300 p2

オブジェクトを検出するだけでなく、画像から長文でキャプションを付与できるようになったり、密集したオブジェクトの検知をより精度高くできるようになるなど、予測精度が向上したのがわかります。

Figure 9: Long caption phrase grounding
例1:https://deepdataspace.com/blog/Grounding-DINO-1.5-Proより引用。画像から長文でキャプションを付与できる
Figure 11: Side-by-side comparison between Grounding DINO 1.5 Pro and Grounding DINO (part 2).
例2:https://deepdataspace.com/blog/Grounding-DINO-1.5-Proより引用。密集したオブジェクトの検知精度向上

例えば自動運転や防犯カメラの解析、医療、工場における異常検知などに応用されてきた「物体個々を認識する」検知のシステムが「全体として何が起こっているのか」を表現できるようになってきたため、複雑な状況を認識したり特殊な状況を検知したりすることに役立てる可能性が広がってきていると考えられます。

出典:
https://deepdataspace.com/blog/Grounding-DINO-1.5-Pro
https://arxiv.org/abs/2405.10300


2. RAGの堅牢性について学ぶ

AIが事実に基づかない情報を生成する現象のことを「ハルシネーション」といいます。このハルシネーションという問題を軽減する方法の1つとして、RAGという技術が使われ始めています。

【関連記事】プロンプトエンジニアリング手法 外部データ接続・RAG編

RAGの検索対象は任意に設定することができるため、RAGを用いることで最新の情報や企業の内部ドキュメントなどを反映した回答生成が可能になります。一方で、実はRAGの堅牢性に関する既存研究にはまだ十分に検討されつくしていない部分があることを指摘した論文が発表されています。簡単にご紹介します。

RAG全体の堅牢性の評価

RAGは大きく2つの機能で構成されています。外部知識として用意した文献から必要な部分を検索する機能(リトリーバー)と、検索した文献と質問から回答を生成する機能(リーダー)です。

従来の研究ではこのそれぞれに対して焦点を当てた評価を行っていたものの、本来相互作用を持つはずのリトリーバーとリーダー両方に対する堅牢性の評価は行われてきませんでした。そして、実際のデータベース上で蔓延しているちょっとしたテキストエラー(タイプミス等)がRAGに引き起こす脅威についても見落としてきたのだそうです。

Figure 1: Impact of the noisy document in the real-world database on the RAG system.
図出典:https://arxiv.org/pdf/2404.13948  p1より引用

本論文では、GARAG(Genetic Attack on RAG)という新しい敵対的攻撃手法を使って、その攻撃がRAGにどのような影響を及ぼすのかを調査しました。
ここでいう敵対的攻撃とは、元のデータに人間にはわからないようなわずかなノイズを加えて、機械学習モデルの認識を混乱させる攻撃手法を指します。

GARAGは、元の文献に意図的にちょっとしたノイズ(タイプミスや不自然な句読点等)を混ぜ込むことで、現実世界のデータのノイズに近い形でシミュレートを行います。これにより、リトリーバーが正しい文献を検索することや、リーダーが適切に答えを見つけることを妨げることを期待しました。

調査の結果、GARAGがRAGシステムのパフォーマンスを著しく低下させることが分かりました。
現実世界のデータベースに存在する可能性のある些細なテキストエラーは、RAGシステムの全体的なパフォーマンスを著しく低下させる可能性があり、堅牢なRAGシステムの構築には、リトリーバーとリーダーの両方の堅牢性を考慮した対策が必要であるということがわかりました。

出典:https://arxiv.org/pdf/2404.13948


3. LLMはファインチューニングによって新しい情報を得ることができるか?

企業においてLLMを活用したい場合に、特定の目的を達成できるようにモデルをカスタマイズしたい…という要望をお持ちの方も多いのではないでしょうか。

生成AIをカスタマイズする際、本記事の2つ目のトピックにも出てきたRAGを用いるアプローチの他に、「ファインチューニング」という手法を用いてモデル自体を訓練し直すやり方があります。

【関連記事】OpenCALM-7Bにファインチューニングを実施してポジネガ分析に関して賢くなるかを確認してみた

大きなメリットを持つ反面導入ハードルや再学習のコストが高いのですが、近年はファインチューニング用のパッケージが随所で公開され、以前よりは導入ハードルが低くなってきました。

さて、「モデルが知らない新たな情報を付け加える」というカスタマイズを行いたい場合には、多くの場合RAGが用いられます。しかしファインチューニングを使うことはできないのでしょうか?

今回ご紹介する論文では、新しいデータセットから学べる内容とLLMが元々持っていた知識が矛盾していた場合、モデルの学習や生成の際にどのような挙動を起こすのかを調査しています。概要をご説明します。

今回の研究では、ファインチューニングに用いたデータセット内の新しい知識がファインチューニング後のLLMの性能にどのような影響を与えるかを調査するべく、筆者たちは以下のようなアプローチで実験を行いました。

  • モデルにとっての未知の情報の割合を変えたデータセットをいくつか用意
  • 用意したデータセットを用いてモデルをファインチューニングする。さらにデータセットを何周学習したかのバリエーションをいくつか用意
  • Q&A形式でモデルに質問を行い、正答率を調査

※ 通常モデルの学習のためにはひとつのデータセットを何周も学習させる必要があります。
何周学習したか?という数を「エポック数」と呼び、たとえば「10エポック」ならひとつのデータセットを10周学習したことになります。

その結果、以下のような事実が明らかになりました。

  • モデルにとって未知のデータセットを用いると誤答リスクが上がる
    • 特にエポック数が大きい(=訓練期間が長期である)ほどリスクが大きくなることが明らかになりました。
グラフ出典:https://arxiv.org/pdf/2405.05904 p4より引用
  • データセットの中で、未知のデータは既知のデータよりも遅くモデルに適合される
    • モデルにとって未知のデータセットの負の影響は特に訓練後半で現れるため、モデルの学習を早期に停止することで回避できると主張されています。

以上の結果を踏まえると、ファインチューニングは特定のドメインの知識を再学習する手法として注目されている一方で、モデルにとって未知の知識を正しく獲得することが得意ではないアプローチであるといえそうです。

出典:https://arxiv.org/pdf/2405.05904

まとめ

最後まで読んでいただきありがとうございます。

今回は、Grounding DINO 1.5 Pro/Edge公開、RAGの脆弱性について学ぶ、LLMはファインチューニングによって新しい情報を得ることができるか?の3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに!


このページをシェアする

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine