生成AI/LLM技術最新トレンド｜①Llama3公開 ②RAGモデルの信頼性 ③AutoCrawlerのご紹介

生成AI/LLM

執筆者

崎山栞里

公開日

2024.06.03

更新日

2024.09.04

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM（LargeLanguageModels、大規模言語モデル）、およびGenerativeAI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/4/30時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

生成AI/LLM技術最新トレンド（2024/4/30時点）

生成AI/LLM技術最新トレンドに関する今回のトピックは、以下のとおりです。

1．Llama3公開

米Meta社が4月18日、大規模言語モデル「Llama 3」を公開しました。パラメーター数が80億のモデルと700億のモデルの2種類を用意しており、同じモデルサイズのオープンソースLLMではそれぞれ最高性能を誇ります。

Meta Llama 3 Pre-trained model performance — 表の出典： https://ai.meta.com/blog/meta-llama-3/

また700億のモデルの性能は現在公開されているモデル全体の中で5番目にランクインしています。

LMSYS Chatbot Arena Leaderboard — 表の出典：https://chat.lmsys.org/?leaderboard

パラメーター数4000億のモデルも現在学習中だそうで、完成すればまた大きな話題になることが想像できます。
想像を絶する速さで様々なモデルが発表されていきますね。今後も目が離せません。

出典：https://xtech.nikkei.com/atcl/nxt/news/24/00603/

2．RAGモデルの信頼性

AIが事実に基づかない情報を生成する現象のことを「ハルシネーション」といいます。このハルシネーションという問題を軽減する方法の1つとして、近年RAGという技術が使われ始めています。

RAG（Retrieval-Augmented Generationの略称。検索拡張生成とも呼称）とは、LLMによるテキスト生成に外部情報の検索を組み合わせる技術です。

検索対象は任意に設定することができるため、RAGを用いれば最新の情報や企業の内部ドキュメントなどを用いた回答生成が可能になります。実は現在皆さんの身の回りでリリースされている、LLMを使ったチャットボットや社内情報検索ツールの多くにこのRAGという技術が使われています。

さて、この便利なRAGモデルですが、もし仮に参照する外部情報とLLMが持つ内部知識が矛盾したとき、LLMはどちらの情報を信じて出力を行うのでしょうか？

この疑問に答える論文が発表されました。簡単に概要をご説明します。

この論文では、LLMの内部知識（事前知識）とRAGが提供する情報の食い違いが生じる状況下での両者の関係を分析しています。GPT-4などのLLMに対して、参照文書の有無による質問応答能力をテストし、参照文書に段階的に誤情報を加えてLLMの応答を分析しました。

結果として、以下の3つのことが分かりました。

LLMがRAGの情報に依存する傾向（RAG選好率）は、LLMの事前知識の確信度（事前確率）と負の相関がある。
LLMは、RAGの情報が事前知識から大きく乖離するほど、事前知識に依存する傾向が強くなる。
プロンプトの書き方（厳密にRAGに従う、柔軟にRAGに従うなど）も、RAG選好率に影響を与える。

段階的に誤情報を加えた参照文書の有無による、LLMの質問応答能力テスト結果 — グラフの出典：同論文のp3。6つのQAデータセットでGPT-4を使用して段階的に参照文書に誤情報を加えました。y軸にRAG優先度をとり、左のグラフではx軸にモデルの事前知識の確信度を、右のグラフでは事前知識と参照文書の乖離度をとっています。いずれも負の相関がみられています。

自分の知識が正しいと思っていれば自分の知識を信じ、不安なら外部から与えられた情報に頼るという意味では人間に似たものを感じます。そして、これらの結果をもとに論文では以下のように考察しています。

RAGシステムはLLMのハルシネーションを抑える効果がある一方で、LLMの事前知識がRAGの情報に優先することがあり、RAGシステムが常に正しい情報を提供するとは限らない。
LLMが参照文書と事前知識をどのように組み合わせるかは明確ではなく、予期せぬ結果をもたらす可能性がある。
医療や法律などの分野では、RAGシステムの信頼性について慎重に検討する必要がある。

出力結果に正確性が強く求められ、かつ深い専門知識が必要な領域では予期せぬ出力の誤りが重大な事故に繋がる可能性もあります。以前GPT-4が司法試験や医師国家試験で合格水準のスコアを叩き出したというのがニュースになりましたが、まだまだ実務で使うには人間のチェックが不可欠そうです。

今後LLMとRAGの関係性に関する研究が進めば、うまく誤情報の出力を避けて正しい結果を導き出せるようになるのでしょうか。今後の研究発展に期待したいところです。

論文出典：https://arxiv.org/abs/2404.07413

3．ウェブクローリングに生成AIを用いる際のフレームワークAutoCrawlerのご紹介

皆さんはWebクローリング・スクレイピングをしたことはありますか？
Webクローリングとは、Webサイトを定期的に巡回して特定の情報を取得する技術です。必要な情報を大量に・素早く取得でき、Python等でも実装できる手軽さからデータ収集の時間を大きく削減することができます。

かく言う私も下っ端のコンサルタントですので、業務の一部に調査タスクが入ることがままあります。情報収集にはかなり時間がかかってしまうのですが、そういう時にクローリング・スクレイピングができると生産的でない時間をかなり削減することができます。

このクローリングに必要なスクリプト（クローラー）をLLMを用いて効率的に生成するためのフレームワーク”AutoCrawler”について紹介する論文が発表されました。簡単に概要をご説明します。

従来のWebクローリングではラッパーという手法が用いられており、これは特定のウェブサイトやページからデータを抽出するために特別にスクリプトやソフトウェアを設計するものです。形式が決まったウェブページのクローリングにおいては効率的に情報を取得できる一方、ウェブページの形式が異なるといちいち新しくスクリプトを書かなければならず、ユーザーへの負担が大きくなります。

一方、LLMの出現により、Webページを自律的に移動・解釈・対話できるクローリング用エージェントを作れるようになりました。しかしこれらは、パフォーマンスが低く、また再利用性が低い（同様のタスクを処理する場合でもいちいち同じ処理を繰り返してしまう）という課題がありました。

パフォーマンスと効率性を両立し、情報を取得できるのがAutoCrawlerです。

Webクローリング手法：ラッパー・生成AI・AutoCrawlerの比較 — 図出典：同論文のp1

この論文で紹介するAutoCrawlerは、以下2段階に処理を分けることでクローラーの性能向上を図りました。操作を通じて誤ったアクションから学習する「段階的生成フェーズ」と、それらの処理を何度も実行して汎用性の高いアクションを生成する「合成フェーズ」です。

1．段階的生成フェーズ

トップダウン操作でターゲット情報を含むノードへのXPath* を生成。実行に失敗した場合、ステップバック操作で階層を遡り、関連する情報を含むノードを選択しXPathを再生成。これを成功するまで繰り返す。

※XPath（XML Path Language）とは、 XMLやHTMLドキュメントのツリー構造から特定の要素や属性値を選択するための言語です。これは特にWebページの情報取得において有用です。

2．合成フェーズ

複数のWebページ上で1の処理を実行し、それらの結果に基づいて汎用性の高いアクションシーケンスを合成する。

これらの実験の結果、AutoCrawlerは、従来のフレームワークと比較して、より正確で実行可能なアクションシーケンスを生成できることが分かりました。また大規模なLLMの方が安定した性能を出せることも分かっています。

一方、LLM単体ではウェブページの構造理解が苦手であることもまた浮き彫りになりました。LLMの性能向上によって、いずれは構造理解の精度も上がっていくのでしょうか。今後の発展に期待です。

論文出典：https://arxiv.org/pdf/2404.12753v1

まとめ

最後まで読んでいただきありがとうございます。
本日はLlama3公開・RAGモデルの信頼性・AutoCrawlerの3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内