DOORS DX

ベストなDXへの入り口が
見つかるメディア

生成AI/LLM技術最新トレンド|①GPT-4o mini 登場 ②スプレッドシートの構造の読み取りに特化したフレームワーク SheetCompressor ③人間がどのモデルの回答を好むかをモデルに学習させる手法 Arena Learning ④RAGの進化と Speculative RAG

執筆者
公開日
2024.09.11
更新日
2024.09.18
生成AI/LLM技術最新トレンド vol.12 株式会社ブレインパッド アナリティクスコンサルユニット 崎山 栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM(Large Language Models、大規模言語モデル)、およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/7/19時点の情報をもとに記載しています

【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題

本記事の執筆者
  • コンサルタント
    崎山 栞里
    SHIORI SAKIYAMA
    会社
    株式会社ブレインパッド
    所属
    アナリティクスコンサルティングユニット
    2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

1. GPT-4o mini 登場

7月18日、OpenAI社からGPT-4o mini が発表されました。こちらはコスト効率の良い小型モデルで、以下のような特徴があります。

  • とにかく安い *
  • にもかかわらず精度が良い

*出典:https://openai.com/api/pricing/

GPT-4o mini は1Mトークンあたり入力が0.150$、出力が0.600$と非常に安価です。これは同社のLLMであるGPT-3.5の約1/3の価格で利用できるということです。(GPT-3.5は1Mトークンあたり入力が0.50$、出力が1.5$)

Model Evaluation Scores
図出典:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/ より引用

また、図の一番左にあるMMLUというベンチマークが近年モデルの比較によく使われるのですが、GPT-4o mini のパフォーマンスは他のクローズドな軽量モデル(Gemini 1.5 Flash, Claude 3 Haiku)よりも高く、MMLUで82%というスコアを叩き出しています。記事内では精度がGPT-4に並ぶ旨記載されていました。
これらの情報から、とにかくコストパフォーマンスに優れたバランスの良いモデルだということがわかります。

一定の精度を保ちながら安価に利用できるモデルということで、そこまで高度な推論や複雑なタスクが必要でない利用場面ではどんどん GPT-4o mini のような軽量モデルが活用されていくのではないでしょうか。
GPTだけでなく他社モデルの最新動向にも注目したいですね。

出典:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/


2. スプレッドシートの構造の読み取りに特化したフレームワーク SheetCompressor

みなさんはGoogleのスプレッドシートやMicrosoft Excelを使ったことはありますか?アカウントさえあれば誰でも無料で利用でき、データの共有も簡単にできるということで、おそらく世界中で使われているツールの1つなのではないかと思います。

非常に便利なためデータ管理に広く使用されているようですが、一方で自由度が高いがゆえにレイアウトや書式の理解が従来のLLMにとっては困難だったそうです。

今回ご紹介する論文では、スプレッドシートデータを効率的に処理し、LLMの能力を最大限に引き出すための革新的なフレームワーク SpreadsheetLLM と、その中核になるエンコーディング手法 SheetCompressor について提案しています。以下概要です。

The SPREADSHEETLLM pipeline
図出典: https://arxiv.org/pdf/2407.09025 p1より引用

スプレッドシートをLLMに読み込ませる取り組みは今までにも行われており、中でも最初に出てきたのがシリアル化手法(データ構造やオブジェクトを一連のバイト列(テキスト形式が一般的)に変換するプロセス)です。
こちらはセルのアドレスや値、形式をデータに含めるものでしたが、LLMが扱えるトークン数の制約によって実用性に欠けることが課題でした。

トークン数:テキストデータに対してモデルが認識する最小限度の言葉の塊のことを指します。例えば”volleyball”という単語は”vol””ley””ball”の3トークンに分けられます。

これに対処するために開発されたのが SheetCompressor というエンコーディングフレームワークです。

Illustration of the SHEETCOMPRESSOR framework
図出典: https://arxiv.org/pdf/2407.09025 p3より引用

こちらは表計算データをLLMが処理しやすいよう圧縮する手法で、以下のような特徴があります。

  • 構造アンカーに基づく抽出:表の構造情報を保持しつつ、均質なデータを持つ行や列を削除する
  • 転置インデックス変換:空セルや重複値を効率的に表現することで、トークン数を削減する
  • データ形式に応じた集約:数値セルのデータ型を考慮し、隣接する同型のセルを集約することで、トークン数を削減する

SheetCompressor を使うことにより、トークン数を25倍にまで圧縮、さらに表検出タスクやQAタスクにおいて従来のシリアル化手法のスコアを12.3%上回りました。
SpreadsheetLLM がさまざまなスプレッドシートタスクで効果的であることがわかります。

出典:https://arxiv.org/abs/2407.09025


3. 人間がどのような回答を好むかをモデルに学習させる手法 Arena Learning

Chatbot Arena というプラットフォームをご存じでしょうか。
世の中に多数登場する生成AIを用いたチャットボットの性能を簡単に比較できるように用意されたプラットフォームです。誰でもアクセスできるのでご興味があればぜひ覗いてみてください。

【参考】Chatbot Arena

こちらはLLMの評価ベンチマークであり、評価を行うのはユーザー自身です。というのも、ユーザーはランダムに選択された2つのモデルに対してプロンプトを入力し、どのLLMが回答しているか明かされない状態で、どちらが優れているかを選択するのです。
その結果をもとにモデル同士を戦わせて評価するので、まさに“競技場”です。

Chatbot Arena ではユーザー(=人間)にとってより好ましいモデルが上位ランクに来るため、「人間に好まれる」というなかなか数値化しづらい評価指標でモデルを評価できるのが魅力的なベンチマークであり、この指標を取り込んだモデルの精度が良くなりそうなのはなんとなく予想がつくかと思います。

ただし逆に言えば、大量のユーザーの投票によってこの指標は成り立っており、当然評価には多くの人手と時間がかかっています。このため、意図的にモデル学習に活用させるためには向かない指標でもありました。

今回ご紹介する論文はMicrosoft社による論文で、Chatbot Arena をシミュレートしてオフラインでのモデル学習に組み込む Arena Learning という手法を紹介するものです。

OverviewofArenaLearningpost-trainingdataflywheelandWizardArenaevaluation.
図出典:https://arxiv.org/pdf/2407.10627 p2より引用

これの何がすごいかというと、「LLMの回答に対する人間の嗜好」を Chatbot Arena から学習し、それをモデル学習に生かせることです。

Arena Learning は「人間が評価するならきっとこちらを好むだろう」と判断するAIシミュレーション Wizard Arena を用い、そこでのシミュレーション結果をLLMの事後学習に使用することで Chatbot Arena と同等のフィードバックをモデル学習に活用できるようにしました。
Arena Learning を用いて学習させたモデル WizardLM-β は、大幅なパフォーマンス向上がみられたそうです。

人間の嗜好をモデルに反映させることで強化学習を行うRLHFという手法がありますが、人間の嗜好をモデル自身が予想できるようになれば飛躍的にモデルの学習が進むと考えられます。今後の発展に期待です。

【関連記事】ざっくりわかるRLHF(人間からのフィードバックを用いた強化学習)

出典:https://arxiv.org/pdf/2407.10627

4. RAGの進化と Speculative RAG

AIが事実に基づかない情報を生成する現象のことを「ハルシネーション」といいます。このハルシネーションという問題を軽減する方法の1つとして、RAGという技術が使われ始めています。RAGとは、外部データから関連情報を検索・取得し、その検索結果をもとに回答を生成する技術です。

【関連記事】プロンプトエンジニアリング手法 外部データ接続・RAG編

RAGの検索対象は任意に設定することができるため、RAGを用いることで最新の情報や企業の内部ドキュメントなどを反映した回答生成が可能になります。
ただし、ただのRAGでは厳密にはハルシネーションの軽減にはつながらないというのもわかってきており、様々な研究でRAGのデメリットを補完しLLMの精度を上げる取り組みが行われています。

今回ご紹介する論文では、モデルによる出力までの過程に評価モデルによる判断を挟むことで回答精度を向上させることを試みた Speculative RAG について提案しています。これについて、いくつかの種類のRAGと比較しながら簡単にご紹介します。

RAGの弱点

RAGの強みは検索に基づいた生成が行えることですが、この作用がマイナスに働くことがあります。従来のRAGはあらゆる入力に対して検索を使って答えを出そうとするという挙動が確認されています。
例えば検索の全く必要ない「おはよう」のような入力に対しても検索で答えを出そうとするのです。

これにより、回答の精度が下がってしまうほか、検索結果をすべてプロンプトに取り込んでしまう分、遅くなり、さらに利用料もかさんでしまいます。

自立判断できるRAG「Agentic RAG」

これを解決するために、いわゆる「Agentic RAG」つまりRAGに情報ソースを参照するかを自分で判断させるフレームワークがいくつか提案されています。特徴として、検索の実行の判断や検索した資料が正しいかを判定させる等、従来のRAGの弱点をカバーするような仕組みになっています。

今回のメインとなる Speculative RAG のほか、よく比較されるSelf-RAGCRAGという2種類のRAGと比較しながら特徴を見ていきましょう。

Self-RAG

Overview of SELF-RAG
図出典:https://arxiv.org/pdf/2310.11511 p2より引用

Self-RAGとは、検索した外部情報を「関連しているか」や「役立つか」を判断したうえで、検索した情報を生成に利用するかを決める仕組みです。

RAGは、

  1. 検索
  2. 検索結果を用いて回答を生成する

という2段階に分かれるのですが、1.のあとに判断のフェーズを挟むのがSelf-RAGです。
これにより、無理に検索した結果を使って生成を行うということがなくなり、精度低下を防ぐことができています。

CRAG

An overview of CRAG at inference
図出典:https://arxiv.org/pdf/2401.15884 p4より引用

CRAG(Corrective RAG)はSelf-RAGを発展させたもので、外部情報を利用するかどうかが曖昧なときにWEB検索などの外部ソースを参照できるようにしたものです。
検索で誤ったデータを取得した際に修正したり、完全に誤っている場合はWeb検索に切替えたりと、Web検索を組み合わせた 検索を行います。

これにより、RAGにおいて誤った検索が行われると生成がうまく行かないという問題を解決することができます。

Speculative RAG

Illustration of different RAG approaches
図出典:https://arxiv.org/pdf/2407.08223 p2より引用

Speculative RAG は小さいRAGのそれぞれに回答ドラフトを生成させ、その結果を評価用LLMが評価し、最も良いものをユーザーの入力に対する出力結果として出すような仕組みのRAGです。

  1. 取得した外部情報を、意味合いをもとにいくつかのサブセットに分割し、各サブセットごとに回答とその根拠を出力させる
  2. ドラフトを評価用のLLMが検証する

という2段階にタスクを分解することで、高品質な応答を迅速に生成できるのが強みです。
Speculative RAG は従来のRAGシステムと比較して、最大12.97%の精度向上と51%のレイテンシ削減を達成しました。

ただし、Speculative RAG の実現には小さいモデルのそれぞれをトレーニングする必要があります。トレーニングコストは高くないものの、構成としては複雑なものになることには留意が必要です。

まとめ

RAGの弱点をカバーするために、RAG自身に判断を行わせる Agentic RAG の考え方に基づいていくつもの手法が提案されています。
文献を使うか否かの判断を行うSelf-RAGから、文献とWeb検索結果のどちらを使うかを選択し文献を修正できるCRAGと発展し、今回紹介した Speculative RAG は文献から作成された回答ドラフトをLLMが選ぶという仕組みにまで発展しました。

RAGの弱点を克服し、より精度を向上させるための今後の取り組みに期待ができます。

出典:https://arxiv.org/pdf/2407.08223

まとめ

最後まで読んでいただきありがとうございます。
今回は、GPT-4o mini 登場、スプレッドシートの構造の読み取りに特化したフレームワーク SheetCompressor、人間がどのモデルの回答を好むかをモデルに学習させる手法 Arena Learning、RAGの進化と Speculative RAG の4つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに!


このページをシェアする

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine