生成AI/LLM技術最新トレンド｜①Claude 3.5 Sonnet のリリース ②長文コンテキストに対応する言語モデルはSQLの代替となり得るか？③モデルの推論プロセスを高速化する手法 EAGLE-2

生成AI/LLM

執筆者

崎山栞里

公開日

2024.07.26

更新日

2024.12.10

生成AI/LLM技術最新トレンド vol.9 株式会社ブレインパッドアナリティクスコンサルユニット崎山栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM（LargeLanguageModels、大規模言語モデル）、およびGenerativeAI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/6/27時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

1. Claude 3.5 Sonnet のリリース

6月21日、Anthropic社からAIモデル Claude3.5 シリーズの第一弾として Claude 3.5 Sonnet が公開されました。
Claude3 Opus よりも高性能（推論速度は2倍だそうです）かつ Claude 3 Sonnet と同程度の速度・コストで提供されているそうです。
※Claude3 シリーズには高精度な上位モデル「Opus」、汎用モデル「Sonnet」、応答速度に強みを持つ「Haiku」の3種類が出ています。

既に公式HPで公開されているほか、AWSやGCP上で使えるようです。興味がある方はぜひご覧ください。

【参考】Claude.AI

Claude3 シリーズのコストと応答速度 — グラフ出典：https://claude.ai/より引用

Claude は元々高い推論能力に基づく自然な文章生成が評価されていたモデルですが、特に画像を含むマルチモーダルタスクにおいて他のモデルよりも高い性能を出しているとのことです。
モデル評価プラットフォームである Chatbot Arena でも全体の性能で GPT-4o に次ぐ2位に位置づけており、コード生成やマルチターンの応答では1位の性能を誇ります。

Chatbot Arena のモデル評価ランキング（全体性能） — 図出典：https://chat.lmsys.org/?leaderboard の7/1時点スクリーンショットを筆者加工

また、同時にリリースされた「Claude 3.5 Sonnet Artifacts」についても紹介させてください。
こちらはユーザーが Claude と対話しながらコンテンツ（プログラミングコードや文章、ウェブサイトデザイン等）を作ることができるサービスです。
公式HPでデモ動画が見られますので覗いてみてください。

今後は何らかのプロダクトを作る際、企画側のチームが特別な知識がなくとも生成AIを用いて試作品を作り、エンジニアと一緒に現物を見ながら議論を重ねて完成まで持っていく…という作り方がどんどん一般的になっていくと予想されます。
ユーザーが現物のイメージを早めに掴んで要件を具体化できるという意味で、プロダクト開発全体のスピードが上がっていくのは喜ばしい変化なのではないでしょうか。

2.長文コンテキストに対応する言語モデルは SQL の代替となり得るか？

LLMに法律や医学などの専門知識に対応できるようにしたい場合、従来はファインチューニングで特定知識をモデルに学習させたり、あるいはRAG等を用いて外部から知識を取り込ませる手法が主流でした。

ところが直近の研究では、上記のような方法よりもLLMへの指示（プロンプト）に直接必要知識を書き込んでしまう方が精度がよいという結果が出ています。
プロンプトは長く詳細な方がよいことも明らかになっています。これは近年のモデルのコンテキスト長（＝一度に処理できる文字数）が大きくなったことにより実現できるようになった手法です。

LLMのうち、特にこの長文コンテキストの処理のために設計されたモデルを LCLM（Longcontext language model、長文コンテキスト言語モデル）といいます。
LCLMは約数万～数百万トークン※ に及ぶ長い文脈を処理できるように設計されており、要約や翻訳などの様々なタスクに強みを発揮します。
GPT-4o や Gemini 1.5 Pro、Claude3 Opus 等が該当します。

※ここで、トークンとは、テキストデータに対してモデルが認識する最小限度の言葉の塊のことを指します。例えば”volleyball”という単語は”vol””ley””ball”の 3 トークンに分けられます。
モデルによってはこのトークンの分け方を公開しています。
ChatGPT のトークンを確認できるOpenAI社のページを参考として挙げますので、もし興味があれば触ってみてください。
【参考】Tokenizer

さて、今回ご紹介する論文は、LOFT（Long-Context Frontiers）と名付けられた LCLMs の性能を評価するためのベンチマークを紹介するものです。
LOFT を用いて、LCLM が特別なトレーニングを行うことなく検索やRAG（検索拡張生成、外部情報を参照しその内容をもとにLLMが回答する仕組み）、SQL（今回はSQLを用いてデータベースからデータを取得するタスクを想定）等のさまざまなタスクを既存LLMと同等の性能で行えるかを調査しました。

Figure1: AnoverviewoftheLOFTbenchmark,madeofsixtaskswhichmeasureLCLMs’ability todoin-contextretrieval,reasoning,andmany-shot learningoncorporauptomillionsoftokens. WecomparetheperformanceofLCLMsagainstspecializedmodels(e.g.,CLIPforvisualretrieval), whichoftenrelyoncomplextask-specificfine-tuningorpipelining.Unlikespecializedmodels,we showhowLCLMscansimplifyvarioustasksthroughCorpus-in-ContextPrompting(§3). — 図出典：https://arxiv.org/pdf/2406.13121 p2

研究では GPT-4o や Gemini 1.5 Pro、Claude3 Opus の3種を用いて、今回対象とするタスクそれぞれに特化したモデルと比較しています。
研究の結果、以下のような結果が出ました。

検索（テキスト・画像・音声）やRAGにおいて、LCLMは専門LLMと同等の性能を発揮
データベースからデータを取得する必要のあるSQLなど、複雑な推論が必要になるタスクにおいては専門モデルに大きく劣る
プロンプトの効果的な設計が重要

また3点目に関連して、LCLMに適したプロンプトアプローチとして CiC（Corpus-inContext）という手法が有効であると紹介されていました。
ざっくり説明するとモデルに対して具体的なタスクを指示するという手法です。
具体的なタスク遂行方法と読み取る対象をプロンプト内で説明し、タスク遂行の具体例や出力フォーマットを同時に渡すことで精度が上がるそうです。

Figure 3: Example of Corpus-in-Context Prompting for retrieval. CiC prompting leverages large language models’ capacity to follow instructions, leverage few-shot examples, and benefit from reasoning demonstrations to retrieve and reason over large corpora provided in context. — 図出典：https://arxiv.org/pdf/2406.13121 p5

LOFTがLCLMの性能を測るのに有効なベンチマークであることと、LCLMが多くのタスクにおいて専門的な訓練を行わずとも高い性能を発揮できることが分かりました。
推論能力については今後の技術発展に期待ですが、LCLMの性能だけに頼り過ぎず既存の専門モデルと併用していきたいですね。

出典：https://www.anthropic.com/news/claude-3-5-sonnet

3.モデルの推論プロセスを高速化する手法 EAGLE-2

生成AI関係の研究は非常に活発で、言語モデルだけでも短いスパンに精度の良いLLMがどんどん登場しています。
2020年にOpenAIが発表した論文「Scaling Laws for Neural Language Models*」にて、LLMの性能は基本的に「計算量」「データ量」「モデルパラメータ数」との間にスケーリング則が働いている、つまりこれら3つの要素が大きければ大きいほどモデルの性能が上がるというのが基本的な考え方であると示されています。

*https://arxiv.org/pdf/2001.0836 1

もちろん各要素が大きくなるにつれ成長は鈍化するため無限に性能が向上することはないのですが、とにかく3要素を大きくすることで性能がある程度まで上がることは間違いありません。

ここで、今回は「モデルパラメータ数」が増えることで何が起こるかに着目します。モデルは推論時に全てのパラメータにアクセスするため、パラメータ数が増えるにつれて、当然モデルの推論速度が落ち、コストが増えてしまいます。

この推論コストを抑えるための手法の1つが「EAGLE」という手法です。
EAGLE はLLMの推論コストを抑えるための投機的サンプリング手法で、ざっくり説明すると軽量なモデルを使って簡単に予測できる文字だけを予測してしまい、大きくてコストのかかるLLMが推論しなければならない範囲を少なくするという考え方に基づく手法です。
例えば、「です」のあとの句点「。」は比較的予測が容易なため、切り出して軽量なモデルに任せても間違えにくい…という考え方です。

今回ご紹介する論文では、EAGLE にコンテキストを認識して動的にドラフトツリーを構成する「EAGLE-2」を提案しています。
ドラフトツリーを説明するにあたり、まずは木の枝が分かれているのを想像いただくと良いと思います。木の幹をスタート地点とし、枝が分かれていくように予測を進めます。それぞれの枝に進み、予測が合っていればそのまま進み、誤っていれば戻って別の枝（予測）を試す…という風に予測を繰り返し、最終的に正しい予測にたどり着くまで続けます。
1つ1つの枝は小さいモデルのため、かなりの軽量化が図れそうです。

EAGLE-2 ドラフトツリー — 図出典：https://arxiv.org/pdf/2406.16858 p5

また、EAGLE-2はさらに予測精度を上げるために、①予測の中から一番可能性の高いものを選ぶ②それをもとに次の予測をする③全ての予測を見直し、最も正しいと思われるものを選ぶ、というステップを踏み、予測の精度を高めています。

EAGLE-2を用いることで、既にあるモデルに別途訓練を行うことなく予測精度を上げることができます。実験の結果、6つの異なるタスク（会話、コード作成、数学の問題解決、指示の実行、要約、質問応答）すべてで最高のスピードを記録しました。特に、コード作成のタスクでは、従来の方法に比べて5倍速くなったとのことです。

LLMの処理を速くする手法はいくつか提案されていますが、いずれも品質とスピードがトレードオフになってしまうケースが散見されます。EAGLE-2の面白いポイントは、品質とスピードを両立させ、かつ既存モデルを大きくいじる必要なく精度を向上させられる点です。

出典：https://arxiv.org/pdf/2406.16858

まとめ

最後まで読んでいただきありがとうございます。
今回はClaude 3.5 Sonnetのリリース、長文コンテキストに対応する言語モデルはSQLの代替となり得るか？、モデルの推論プロセスを高速化する手法EAGLE-2の3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内