メルマガ登録
みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。
2022年にChatGPTが登場して以来、LLM(Large Language Models、大規模言語モデル)およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。
これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。
本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/12/19時点の情報をもとに記載しています
【関連記事】
生成AIとは?AI、ChatGPTとの違いや仕組み・種類・ビジネス活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
本メディアにおいても度々ご紹介しているように、AIエージェントは人間の代わりに作業を実行することで生産性を向上させる可能性を秘めています。例えば、Webサイトの操作、複数のデータから情報を収集したレポート作成、プログラミングなど、様々な作業を自動的に実行できます。さらに、状況に応じて計画を立て、予期せぬ問題が発生した際には対応策を考えるなど、高度な判断能力も備えています。
【関連記事】
自律型AIエージェントのご紹介
しかしながら、現状のエージェントには重要な課題があります。例えば、単一のエージェントで様々なタスクをこなそうとすると、個々のタスクの精度が低下してしまいます。また、精度を上げようと特定のタスクに特化させると、今度はシステムの拡張や修正が困難になってしまいます。上記のジレンマは、エージェントの実用化における障壁と言えるでしょう。
したがって、このような課題を解決することを目的として、複数のエージェントがチームとして協力する新しいシステム「Magnetic-One」が開発されました。「Magnetic-One」では、リーダー役のエージェントが全体を統括します。さらに、Web操作やファイル操作、プログラミング、コマンド実行というそれぞれの専門分野に特化した4つの専門エージェントと協力しながら、複雑なタスクを解決していきます。
「Magnetic-One」の特徴的な点は、人間の組織のような階層構造を持つことです。リーダー役のオーケストレーターエージェントは、与えられたタスクを分析し、実行計画を立て、各専門エージェントに適切な作業を割り振ります。さらに、作業の進捗を常にモニタリングし、問題が発生した際には計画を修正するなど、柔軟な対応が可能です。
また「Magnetic-One」では、二重のループ構造のワークフローも導入されています。外側のループ(明るい背景と実線の箇所)では全体計画の管理を行い、内側のループ(灰色の背景に点線の箇所)では具体的な作業の進行を管理します。この仕組みにより、複雑なタスクを進めながらも、必要に応じて軌道修正を行うことができます。
実際の性能評価では、3つの異なるベンチマークを用いて検証が行われました。ここで、ベンチマークには複数の複雑なステップを踏む必要があり、実行計画を立てて何かしらのツールを使用する必要があるものが選ばれています。例えば、ベンチマーク中にWebブラウザを使用し、Webページを操作したりファイルを操作したりする必要があります。
一般的なAIアシスタント評価(GAIA)では38%のタスク完了率を達成し、特に複雑な多段階タスクで高い性能を示しました。また、実世界のタスク評価(AssistantBench)では27.7%の精度を実現し、特に難易度の高いタスクで既存システムを上回る結果となりました。Web操作の評価(WebArena)でも32.8%のタスク完了率を達成し、最先端システムと同等の性能を示しています。
【参考】
Paper page – GAIA: a benchmark for General AI Assistants 465 のマルチモーダルな質問と回答のペアのセット
AssistantBench 現実的で時間がかかる自動的に検証可能な 214 の質問と回答のペアのセット
WebArena: A Realistic Web Environment for Building Autonomous Agents 5つの主要なウェブサイト カテゴリ (ショッピング、フォーラム、マップなど) にわたる 812 のタスクと、複数のウェブサイトとのやり取りを必要とするカテゴリが含まれるセット
マルチエージェント化してもシングルエージェントと同程度の性能となりましたが、特筆すべきはこのシステムが新しい機能の追加や修正を容易にする設計になっている点です。従来のシステムでは困難だった機能の拡張が、専門エージェントの追加や更新という形で実現できます。また、エージェント間での柔軟な協力により、予期せぬ状況への対応も可能になっています。
ただし、いくつかの課題も明らかになっています。例えば、処理時間とコストの最適化が必要なほか、動画や音声などの対応にまだ制限があります。また、タスクごとに学習をリセットしてしまうため、類似のタスクでも一から学習し直す必要があるという課題などがあります。
このように、「Magnetic-One」は複数のエージェントが人間の組織のように機能することで問題が発生した場合は柔軟に対応し、汎用性を高めることを可能にしました。今後、残された課題が解決されていけば、より実用的なAIシステムとして発展していくことが期待されます。
【出典】
https://arxiv.org/abs/2411.04468
LLM(大規模言語モデル)は、自然な対話を通じて求める回答を生成できる便利なツールです。しかし、現状ではいくつかの課題を抱えています。例えば、ロングテール知識※1を忘却してしまったり、新しいものに更新されずに古い知識を提供してしまったり、ハルシネーションを起こしてしまうというものです。
※1 一般的ではない、出現頻度の低い知識や専門的または特殊な領域の知識などのことを意味
これらの課題に対する有効な解決策のひとつが、RAGシステムです。RAGを活用することで、LLMは学習時のデータに縛られることなく、外部から最新の知識を取り込んで回答を生成できるようになります。これにより、モデルが事前学習で得た知識の範囲を超えた、より正確で最新の情報を提供することが可能となります。
【関連記事】
プロンプトエンジニアリング手法 外部データ接続・RAG編
今回ご紹介するのは、RAGを用いた際の回答性能を向上させる方法になります。従来のRAGシステムでは、HTMLソースからプレーンテキストを抽出して回答を生成していました。しかし、この過程で見出しやリスト、表などといったHTML固有の構造的・意味的情報が失われてしまい、LLMが本来持つ能力を十分に活用できていないという課題がありました。
そこで、新しい手法「HtmlRAG」ではHTMLの構造をそのまま保持してLLMに補助情報として提供することが考えられました。HTMLフォーマットを活用する利点は複数あります。まず、HTML文書の持つ豊富な情報を損なうことなく保持できます。また、LLMは事前学習の段階でHTMLに触れているため、追加の学習が不要という特徴があります。さらに、他の形式からHTMLへの変換が容易であるという実用面での利点もあります。
HTMLの構造を補助情報として加える際に、そのまま与えてしまうと情報量が膨大になるため2段階に分割して処理しています。
このようにHTMLに処理を施すことによって、HTML構造を効率的に処理することができるようになりました。これによって、より正確な回答の生成や複数の情報源からの回答が必要な質問への対応力向上、長文回答の質の向上が可能になりました。
従来の手法を見直すことで性能が向上した今回のケースは、LLMの性能向上において重要な示唆となりそうです。プレーンテキストを置き換えてHTML構造を活用するという一見細かい部分の改良でも、性能向上に繋がることが実証されました。このような地道な技術改良の積み重ねによって、LLMの実用性がさらに高まっていくことが期待されます。
【出典】
https://arxiv.org/abs/2411.02959
AIエージェントについての関心は近年高まりつつあります。実際のところ、エージェントの活用はどの程度広がっているか?と疑問に思う方もいらっしゃるのではないでしょうか。その問へのひとつの回答として、LangChainが1,300人以上の専門家を対象にエージェントの活用に関して調査を行った結果をご紹介します。
まず、現在の活用状況ですが回答者の51%程度が実際の本番環境でエージェントを活用していると答えたという結果となりました。また、78%が近い将来本番環境にエージェントを導入する計画があると答えています。さらに、技術系の企業かどうかや業種を問わず、導入に関して高い関心を示している結果となりました。
では、どのようなタスクをこなしてもらうことを期待しているのでしょうか?主な用途としては、時間のかかる作業や大量の情報を精査しなくてはならないタスクなど調査・要約の作業が最も多く、次いでスケジュール設定や整理などの日常的なタスクを支援するような個人の生産性向上やアシスタントに関わる業務が挙げられました。また、カスタマーサービスでの活用で問い合わせの処理やトラブルシューティング対応の時間短縮を図りたい企業も多いようです。
エージェントには自律的に様々なことができる可能性がありますが、企業としては完全にエージェント任せにはできないと考えており制御機構が必要だと考えていることが明らかになりました。
具体的な調査結果では、追跡や観測ができることが必須だと考えている企業は半数以上という結果となりました。また、エージェントの権限に関しては、読み取り専用にしたり(42.9%)、書き込みや削除が必要な場合には人間の承認を必須としたり(43.4%)といった制限を課して、完全に自律的に判断させることを躊躇する企業が多いことがわかりました。
また、導入においても課題を感じており、特に回答の正確性に関わるパフォーマンスの品質について最も懸念が持たれているようです。次いで費用や安全性、遅延への懸念が挙げられています。
多くの企業がエージェントの活用に高い関心を抱いていますが、その一方でエージェントへの懸念事項もありスムーズに導入が進んでいくにはまだ時間がかかるかもしれません。現在は多くのサービスでユーザーが全責任を負う形となっています。しかし、品質や安全性に関する保証範囲が明確になり、ユーザーの責任負担が軽減されれば、導入がより進みやすくなっていくかもしれません。
出典: https://www.langchain.com/stateofaiagents
最後まで読んでいただきありがとうございます。
今回は①複数のAIエージェントが協力し合って複雑な作業に挑む②HTML構造を補助情報とするRAGによって回答性能が向上③AIエージェントの活用状況のご紹介をご紹介しました。
ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説