生成AI/LLM技術最新トレンド｜①言語モデル評価のベストプラクティスと、オープンソースライブラリ Language Model Evaluation Harness（lm-eval）を紹介 ②LLMによる財務諸表分析は人間のアナリストを超えるか？ ③LLMエージェントに世界知識モデルを導入する

生成AI/LLM

執筆者

崎山栞里

公開日

2024.06.24

更新日

2024.09.04

生成AI/LLM技術最新トレンド vol.5 株式会社ブレインパッドアナリティクスコンサルユニット崎山栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM（LargeLanguageModels、大規模言語モデル）、およびGenerativeAI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/5/30時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

1．言語モデル評価のベストプラクティスと、オープンソースライブラリ Language Model Evaluation Harness (lm-eval) を紹介

人間がLLMと特にビジネスの場で共存していくために、LLMの出力結果に対する評価は不可欠です。そしてビジネスをスケールさせ再現性高く評価を行うためには、AIがAIを評価することが肝要です。

【関連記事】生成AIをビジネス活用する上で押さえるべき8つの評価観点

ところがこのLLMの評価には依然として方法論的な課題が残っており、一貫した評価を行うためには多くの検討事項が残っています。

今回紹介する論文では、言語モデルの評価において直面する課題と、それらに対処するためのベストプラクティスを検討しています。さらに言語モデル評価のためのオープンソースライブラリLanguage Model Evaluation Harness (lm-eval)を紹介します。
以下概要です。

LLMの評価における課題

言語モデルの評価において、以下の点が課題として挙げられます。

自然言語能力の評価
自然言語の表現をコンピュータが完璧に全て評価することはまだまだ難しく、人がLLMの出力結果を評価するとコストがかかりバイアスの懸念もある一方、自動化された評価指標では再現性に課題があるそうです。
（例えば「ごはんを食べる」と「食事をとる」が同義であることをコンピュータは自動的に検出できない）
ベンチマーク設計
評価に使用するベンチマークは、現実世界の現象を適切に反映するものでなければならず、その有効性については継続的な検討が必要です。
実装の困難さと非再現性
ベンチマークが実際に使われるには世界中の研究者が同じベンチマークを同じように実装することが必要です。
ところが、実装のわずかな違いで評価のパフォーマンスが変わることがあり、一貫性や再現性を担保できないがために公正な比較ができません。
また仮にベンチマークを一貫して実装できたとしても、異なるモデルや手法を公平に比較することは困難です。例えばあるモデルがベンチマークに過度に適合する形でチューニングされていた場合、果たして他のモデルと比較した評価は適正でしょうか？
変化の速さ
LLM の研究は急速に進歩しているため、ベンチマークが陳腐化してしまう可能性があります。

ベストプラクティスの紹介

上記で述べたような課題に対応すべく、LLMの評価ベストプラクティスが挙げられていました。いくつかご紹介します。5つほど紹介されていましたので、興味があればぜひ論文を読んでみてください。

常に正確なプロンプトとコードを共有する
評価コード全体と使用されたプロンプトを提供することが再現性を高めます。
モデルの出力を常に提供する
モデルの出力結果を共有することで、他の研究者がスコアを再計算でき、評価研究に参加することが容易になります。

Language Model Evaluation Harness （lm-eval）の紹介

上記のベストプラクティスに基づき構築されたのが lm-eval というオープンソースライブラリです。

lm-eval は、研究者やユーザーが1つのコードベースをインストールすれば望む評価タスクを実行できるようになることを目標としています。
またあらかじめライブラリにベストプラクティスが組み込まれている状態ですので、ユーザーが自然とベストプラクティスに従う形で評価を行うことができます。

実際に lm-eval が有用であることを実証するため、論文ではいくつかのケーススタディの結果についても記載しています。

まとめ

LLMの評価には多くの課題が伴いますが、lm-eval を使用することで、評価の一貫性と再現性を向上させることができるとわかりました。
簡単にモデルの出力結果を評価できるようになれば、人間がいちいち最終結果を担保せずともLLMに仕事を任せていけるような世界が近づきそうです。

出典：https://arxiv.org/pdf/2405.14782

2．LLMによる財務諸表分析は人間のアナリストを超えるか？

LLMがある特定のタスクにおいて人間を上回るパフォーマンスを出せたという事例を見かけることがあるかと思います。「人間の仕事がAIに取って代わられる」という言説もあり、LLMが人間以上に上手くこなせるタスクの範囲は今後も広がっていくことが予想されます。

さて、LLMは言語の出力に長ける一方、数値の分析やその結果を判断するタスクをどのくらいこなせるかはあまり検証されてきていませんでした。
今回ご紹介する論文では、LLMが収益変動の予測能力において人間の金融アナリストを上回ることを実証しました。
概要をご説明します。

本研究では、GPT-4と人間のアナリスト、企業分析に特化する形で訓練された機械学習モデルのアウトプットをそれぞれ比較し、予測精度を評価しました。

今回はLLMが財務諸表に報告された数値のみから経済的な洞察を生成できるのかを調査することが目的のため、GPTー4には匿名化・標準化された財務諸表を用いて（つまり通常財務諸表に付随する文章情報は与えない）、将来の収益の方向性を判断するようモデルに指示しています。

また出力のためのプロンプトを、通常の簡単なプロンプトと、CoT（Chain-of-Thought）プロンプトを用いて予測をさせたものの2種類用意しました。CoTプロンプトとはモデルに指示を行う際に人間と同様に思考プロセスを踏んでタスクをこなすよう指示するプロンプトです。

【関連記事】プロンプトエンジニアリングの基本と応用

今回は人間の財務アナリストを模倣するように、①財務諸表の傾向を特定 ②主要な財務比率（流動性やレバレッジ比率等）を計算 ③①②を統合して将来の収益に対する期待を形成するというステップを踏ませました。

結果は以下の通りです。

CoTプロンプトを用いた場合のGPT-4による予測結果は人間のアナリストの予測精度を上回る
- 特に人間のアナリストが将来の予測を思いつくのに苦労したり、バイアス・非効率に陥る場合、GPTの予測がより有用であるという結果が出ました。

グラフ出典：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311 p39より引用
**GPT-4による出力と人間の分析を比較**

CoTプロンプトを用いた場合のGPT-4による予測結果は、財務分析に特化した機械学習モデルの予測精度とほぼ同等
- 機械学習モデルによる予測とGPTによる予測は相補的であるとも述べられており、前者が苦労する場合にGPTの予測がうまく機能する傾向にあるそうです。

グラフ出典：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311 p40 より引用
**GPT-4による出力と機械学習モデルによる出力を比較**

GPTによる財務分析の予測能力はGPTの記憶や文字情報ではなく、トレンドや財務比率の分析に基づく

さらに、実際にGPTの出力に基づく取引戦略は優れたパフォーマンスを発揮し、GPTに基づく財務分析が株式市場での有用性を持つことが示されました。特に小型株のリターン予測で優れたパフォーマンスを出すことが強調されています。

本研究の結果、たとえ業界固有の情報がなくとも、LLMは収益変動の予測能力において金融アナリストを上回るほどの優れたパフォーマンスを発揮できることが分かりました。さらに人間のアナリストがLLMに代替されるのではなく、あくまで補完的な関係であることも明らかになりました。

出典：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

3．LLMエージェントに世界知識モデルを導入する

LLMエージェントを用いたプランニングタスクを実行する試みが注目を集めているようです。

本論文は、大規模言語モデル（LLM）を活用したエージェントプランニングにおいて、WKM（世界知識モデル、World Knowledge Model）を導入することで、プランニングの精度向上を実現する方法を提案しています。

従来のエージェントプランニングでは、LLMは現実世界の理解が不足しており、無意味な試行錯誤や幻覚的な行動を起こしがちという課題がありました。この現実世界の情報を補完するのがWKMです。

Figure 2 Overview of our WKM. — 図出典：https://arxiv.org/pdf/2405.14205 p3より引用

WKMとは、人間が物理環境を認知するメンタルモデルを模倣したもので、事前知識と動的な変化の両方を組み合わせることでエージェントがより正確かつ効率的にタスクを遂行できるようにしたモデルです。

実験の結果、WKMを導入したエージェントは、従来のモデルと比較して有意に高いパフォーマンスを示しました。

さらに、WKMがLLMエージェントによる無意味な試行錯誤や幻覚的行動を軽減できることや、弱いWKMでも強いLLMをガイドできることなどが明らかになりました。

出典：https://arxiv.org/pdf/2405.14205

まとめ

最後まで読んでいただきありがとうございます。

今回は、言語モデル評価のベストプラクティスとオープンソースライブラリ Language Model Evaluation Harness (lm-eval) を紹介、LLMによる財務諸表分析は人間のアナリストを超えるか？、LLMエージェントに世界知識モデルを導入するの3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内