DOORS DX

ベストなDXへの入り口が
見つかるメディア

AIエージェント技術最新トレンド:2025年を見据えて2024年を振り返る

公開日
2025.02.27
更新日
2025.02.27
AIエージェント技術最新トレンド:2025年を見据えて2024年を振り返る

みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。

2022年にChatGPTが登場して以来、 LLM(Large Language Models、大規模言語モデル)およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本記事では、2024年に話題が活発化し、さまざまな進展が見られたAIエージェントについてご紹介していきます。(本記事は2025/02/19時点の情報をもとに記載しています)

AIエージェントの現状と注目すべきトピック

昨今は生成AIの発展が目覚ましく、本記事をご覧のみなさまも関心を高く持っていることと思われます。特に、2024年は生成AIを用いたAIエージェント※1に関する話題が数多く取り上げられ、大きく活性化した年となりました。

※1 ここで言うAIエージェントとは、「自身が置かれている環境を認識し、利用可能なツールに基づいて判断を行い、それらのツールを用いて実行できるもの」を指します。

実際にLangChainによるアンケート調査の実施結果からは、様々な企業においてもAIエージェントの導入が進んでおり、近い将来に導入を検討している企業も増加傾向にあることがわかっています。調査に回答した企業のうち、約51%が本番環境でAIエージェントを活用しており、78%が将来的な本番環境での活用を検討しているという結果が示されています。

【関連記事】
AIエージェントとは何か?
生成AI/LLM技術最新トレンド|①複数のAIエージェントが協力し合って複雑な作業に挑む②HTML構造を補助情報とするRAGによって回答性能が向上③AIエージェントの活用状況のご紹介

このような急速な普及の背景には、AIエージェントに搭載される機能面における性能向上に伴い、活用範囲が大きく拡大していることが挙げられます。2024年には特に、単なる質問応答や作業支援を超えて、より複雑なタスクを自律的にこなし、時には複数のAIが協調して問題解決にあたる新しい形のAI活用が広がりを見せています。

特に注目すべき進展として、複数のAIエージェントが協力して作業を進める「マルチエージェント※2」システムの実用化が挙げられます。ソフトウェア開発における設計からテスト、デバッグまでの一連の作業や、多言語間の複雑な翻訳プロジェクトなど、これまで人間のチームワークが必要不可欠とされてきた領域にも、AIエージェントの活用が広がっています

※2 マルチエージェントとは、「複数のAIエージェントが役割分担しながら対話・協調して、タスクを実行する仕組み」を指します。

また、グラフィカルユーザーインターフェース(GUI)を直接操作できるAIエージェントとして「GUIエージェント」が登場しています。自然言語での指示に基づいて、Webブラウザやスマートフォンアプリ、デスクトップアプリケーションなどを画面上のUIを通じて人間のように操作できるようになってきています。

これにより、複数のアプリケーションを横断する複雑な作業も、シンプルな会話形式の指示で自動化できる可能性が広がっています。GUIエージェントの利点のひとつには、APIベースのAIエージェントと異なり、固有の調整を必要としないことによる汎用性が挙げられます。これは生産性の向上に大きく貢献する一方で、プライバシーやセキュリティの観点から新たな課題も提起されています。

さらに、人間社会を模倣し、複雑な社会における人間同士の相互作用をシミュレートするという試みも活発化しています。シミュレーションの領域では、マルチエージェント技術を基盤としながらも、広範囲な社会的文脈での応用を目指す方向性の発展を見せています。例えば、ビジネス的な観点で言えば消費者の行動の予測などの市場のシミュレーションやコミュニケーションのシミュレーションなどへの活用が期待されます。

しかしながら急速な進化に伴い、AIエージェントの性能や信頼性をどのように評価するべきかという新たな課題も浮上しています。AIエージェントはタスクを分解して、ステップごとに問題を解決していく特徴があります。従来の評価手法では、ステップごとの評価をせず最終的な結果のみを確認していたり、ステップごとに評価できたとしても手作業による労力がかかっていたりしました。また、AIエージェントに特化した評価の枠組みの整備も不十分でした。2024年にはこのような問題を解決すべく、Agent-as-a-judgeやMMAUといった手法が考案されました(後述)。

本記事では、2024年に大きな進展を見せたAIエージェントについて、具体的な課題や事例とともに詳しく見ていきます。


マルチエージェント

2024年はAIエージェントの仕組みとして、マルチエージェントに関する手法の提案も多く行われました。背景のひとつには、タスクが複雑である場合、単一のAIエージェントでの処理の精度が下がってしまう、困難になってしまうことがあるという課題がありました。したがって、タスク解決能力の向上や汎用的に活用できるようなAIエージェントが求められるようになってきました。

このシステムの特徴的な点として、人間の組織的な働き方に近い構造を持っていることが言えます。例えば、複雑なプロジェクトを遂行する際、プロジェクトマネージャーのような調整役のエージェントが全体を統括し、各専門家に相当する専門エージェントがそれぞれの役割を果たすという形で機能します。既存の人間社会のフレームワークと似ているので、どういった構造なのかイメージしやすいのではないでしょうか。

マルチエージェント化することの利点は、複数のAIエージェントが協調して作業を行うことで、より効率的で柔軟な問題解決を行うことが挙げられます。というのも、各AIエージェントがそれぞれ特化した機能を持ち、個々のタスクを分解して各専門のAIエージェントに依頼することで、専門エージェントが高い精度で個別タスクの実行をすることが可能になるためです。また、タスクの種類によっては並列処理が可能になることで全体のフローにかかる時間の短縮が可能になることも考えられるでしょう。

さらに、拡張性にも優れているという点もマルチエージェント化の恩恵と言えそうです。新しいタイプのタスクや要件が発生した場合、それに対応する新しいAIエージェントを追加するだけで、システム全体の機能を拡張することができます。したがって、要求が追加されても柔軟に対応することが可能になり汎用的なシステムを構築することができます。

以下に、上記で紹介した特徴や利点に関するマルチエージェントの研究をご紹介します。

論文目的・背景内容
Magentic-One・特定のドメインでの活用だけでなく、日常生活や業務における様々な種類の多様なタスクに対応可能な汎用性が必要とされているオーケストレーターエージェント(全体の管理)と各専門エージェントを組み合わせて、人間のような階層構造を持つシステムを考案

・複雑なタスクの実行や専門エージェントの追加・更新の容易さによる汎用性の向上に寄与
Beyond Human Translation・単純な文章の翻訳を超えて、比喩表現や文化的なニュアンスを表現する必要がある文学作品を翻訳したい・TransAgentsという出版プロセスを模倣したフレームワークが提案

・5つのAIエージェントが協働する仕組み
 ・CEO :全体の統括
 ・Senior Editors:編集基準の設定や指導品質管理を行う
 ・Junior Editors:編集業務やコミュニケーションを行う
 ・Translators:原文からそのまま翻訳
 ・Localization Specialists:文化を反映して翻訳する
 ・Proofreaders:文法、スペル、句読点などの最終確認を行う
CodeR・リポジトリ全体を理解して課題を解決することが難しかった・報告された問題をManagerが分析し、適切な解決プランを選択。その後、問題の再現、原因特定、コード修正、検証という各専門AIエージェントが順番に作業を行い、最終的に修正パッチを生成する仕組み

タスクグラフの考え方を取り入れて、計画実行を構造化している
Iteration of Thought・CoTなど繰り返しの思考で回答の精度向上が考えられてきたものの、静的または半静的なプロンプトでは文脈に応じた適応が難しい・LLMと対話的なやり取りを繰り返すことで、より正確な応答を引き出すことが可能になる点に着目

・生成された回答をもとにプロンプトを動的に生成して、フィードバックを与えて思考を繰り返すことで回答精度を上げるIteration of Thought(IoT)というフレームワークが提案された

【参考文献】

  1. Fourney et al. Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, 2024, https://arxiv.org/abs/2411.04468
  2. Wu et al. (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts, 2024, https://arxiv.org/abs/2405.11804
  3. Chen et al. CodeR: Issue Resolving with Multi-Agent and Task Graphs, 2024, https://arxiv.org/abs/2406.01304
  4. Radha et al. Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning, 2024, https://arxiv.org/abs/2409.12618

GUIエージェント

GUIエージェントは既存のグラフィカルユーザーインターフェース(GUI)を活用することで、様々なアプリケーションやシステムを汎用的に操作できる技術として注目を集めています。これは、人間がコンピュータを操作する際と同じインターフェースを利用することで、特別なAPIやプログラミングインターフェースを必要とせず、既存のソフトウェアをそのまま活用できる利点があります。

2023年以前は単純な自動化にとどまっていましたが、LLMが導入されたことで自然言語による柔軟な操作が可能になりました。WindowsでのGUI操作自動化システムであるUFOやClaude 3.5 Computer Useなど、実際に私たち一般ユーザーも利用可能なモデルが登場しています。

また、マルチモーダル機能が強化されたこともGUIエージェントに大きな影響を与えました。なぜなら、スクリーンショットやUI要素を正確に理解し、操作できるという点がGUI操作にとって重要であるためです。特に高度な画面解析の枠組みによって一般的なUI要素を正確に認識し、操作することが可能になりました。 

しかしながら、悪意のある攻撃に対処することができないなど実用上の課題があることも事実です。

画像出典:https://arxiv.org/pdf/2411.02391 p1より引用
論文目的・背景内容
UFO・WindowsOSのAIエージェントや複数のアプリケーションを横断する作業の自動化が課題だったマルチエージェントのフレームワークとGPTーVisionの機能の利用により、GUIを認識して操作することが可能になった

・AIエージェントのワークフローは以下

 ・ユーザーがリクエストを出すと、HostAgentがアプリケーションの選択と全体の計画を作成
 ・その後、計画に従ってAppAgentが選択されたアプリケーションで操作をして、タスクが完了すればHostAgentが次のアプリケーションを選択

上記の流れを必要な分繰り返す
The Dawn of GUI Agent・デスクトップアプリケーションの自動化において、従来のLLMでは十分な性能が得られていないという課題があったシステムプロンプトを通じて環境と相互作用を行い、ソフトウェア API に依存せずにスクリーンショットのみを通じて環境を理解するという特徴がある

・タスクが完了していないのに完了したという判断をしてしまう、スクロールやブラウジングの際のスムーズさなどに課題はあるもののある程度単純なタスクであればこなせる(成功率80%)
Attacking Vision-Language Computer Agents via Pop-ups・視覚情報を活用するAIエージェントが実用化の域に入ったことに対して、リスクや攻撃の可能性についての理解が不十分だった平均して86%程度悪意のあるポップアップをクリックする

・与えていたタスクの成功率自体も47%程度低下

・ポップアップを無視するように指示をするなど、基本的な防御策は有効ではなく現状攻撃に対して脆弱であることがわかった

【参考文献】

  1. Zhang et al. UFO: A UI-Focused Agent for Windows OS Interaction, 2024, https://arxiv.org/abs/2402.07939
  2. Hu et al. The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use, 2024, https://arxiv.org/abs/2411.10323
  3. Zhang et al. Attacking Vision-Language Computer Agents via Pop-ups, 2024, https://arxiv.org/abs/2411.02391

AIエージェントを用いたシミュレーション

AIエージェントを用いたシミュレーション技術は、2024年に大きな進展を見せています。多数のAIエージェント同士の相互作用によって、独自の社会や文明レベルのシミュレーションを行うことが可能になってきました。マルチエージェントを基盤としつつも、AIエージェントによって構成された社会の活用や市場・購買などのシミュレーションを行い、現実世界へのさまざまな応用において事前に情報やデータを集めるための活用がされつつあります。

AIエージェントによるシミュレーションの主な特徴は、AIエージェントの自律性と適応性にあります。各AIエージェントは独自の「記憶」を持ち、過去の経験を基に状況を判断し、他のAIエージェントとの相互作用を通じて行動を決定します。これにより、従来のルールベースのシミュレーションでは困難だった複雑な社会的相互作用や、予期せぬ状況への対応を再現することが可能になっています。


応用範囲は広く、教育分野での学習者行動の分析、経済分野での市場動向予測、都市計画における人口動態シミュレーション、ヘルスケア分野での感染症拡大予測など、多岐にわたります。特に政策立案や戦略策定の場面では、様々な選択肢の影響を事前に評価できるツールとなりえるでしょう。

From agent architecture to agent civilization
画像出典:https://arxiv.org/pdf/2411.00114 p1より引用
論文目的・背景内容
Project Sid・これまでのAIエージェントの研究は、単体や小規模グループでの評価に限定されており、文明レベルでの大規模な相互作用に関する研究は行われていなかった・10~1000以上のAIエージェントを用いて、Minecraft
上でAIエージェント社会における行動と進歩を検証

・主に、25体のAIエージェントを用いた個々のAIエージェントの性能検証や50体用いた社会的相互作用の検証、500~1000体用いた文明進歩の検証を実施した

・AIエージェント同士の相互作用を検証することで、人間社会とAIエージェントがどのように関わりあうかを探ることが可能になってきた
Very Large-Scale Multi-Agent Simulation in AgentScope・LLMの発展シミュレーションの可能性が広がっているものの、既存のプラットフォームにはスケーラビリティと効率性やAIエージェントの多様性、管理プロセスに課題があった・現実的で信頼性の高いシミュレーションの実現のために、多様なAIエージェントを効率的に管理・実行できるプラットフォームの開発を行った

・AIエージェント間およびAIエージェントと環境間の相互作用やAIエージェントの多様なバックグラウンド設定を自動生成する機能など課題に対処するための開発を行い、100万ものAIエージェントの大規模シミュレーションが実現可能であることを実証した
Generative Agents・従来の大規模言語モデルは単一時点での人間の行動シミュレーションは可能だったものの、長期的な一貫性や記憶の管理、複数AIエージェント間の社会的なダイナミクスの扱いが課題だった・25体のAIエージェントを実装して、個々のAIエージェントの振る舞いが人間らしいか、AIエージェント同士の社会的な相互作用が生まれるか検証

・シミュレーションにおいて、人間の行動が高精度で再現されると、社会科学における理論のテストやバーチャル空間やコミュニティにおけるリアルな社会現象のシミュレーション、新人教育などにおけるトレーニングなど様々な活用の場面が広がることが期待される

【参考文献】

  1. Altera.AL. Project Sid: Many-agent simulations toward AI civilization, 2024, https://arxiv.org/abs/2411.00114
  2. Pan et al. Very Large-Scale Multi-Agent Simulation in AgentScope, 2024, https://arxiv.org/abs/2407.17789
  3. Park et al. Generative Agents: Interactive Simulacra of Human Behavior, 2023, https://dl.acm.org/doi/pdf/10.1145/3586183.3606763

AIエージェントの評価

AIエージェントが登場して急速にその影響は大きくなっているものの、精度に関しては既存の評価方法だけでは測りきれない状況となっています。特に近年、マルチモーダルなAIエージェントシステムが実世界の課題解決に活用されるようになってきていますが、これらを評価する方法が技術の進歩に追いついていません。

従来の評価方法には、主にふたつの問題点があります。ひとつ目は、最終結果のみに注目し、AIエージェントシステムのステップバイステップの性質を無視している点です。AIエージェントの思考と行動の軌跡全体を考慮した評価を行う必要があります。ふたつ目は、特定のアプリケーションのシナリオに焦点を当てすぎており、AIエージェントの根本的な能力の評価が不十分である点です。

また、既存のベンチマークには、タスク完了に注目するあまり、失敗の原因分析が困難という課題もあります。失敗が理解不足、推論エラー、または計算エラーに起因するかどうかを区別することが難しく、モデルの機能について十分な洞察が得られない状況です。さらに、環境設定に多大な労力が必要であることや、特に対話型タスクでの再現性や信頼性の問題も指摘されています。

したがって、AIエージェントを評価するために複数の評価手法が提案されました。

論文目的・背景内容
Agent-as-a-Judge・評価方法が確立されていなかったり、従来の評価方法は最終結果のみに注目し、AIエージェントシステムの段階的にタスクを解決していく性質を無視しているか、過度な人手作業を必要としたりするという問題があった・Agent-as-a-judgeというAIエージェントシステムを利用して別のAIエージェントシステムを評価するという方法が考案された。これによって、段階的なタスク遂行において、段階的な評価を行うことが可能になった

・人間による評価(3人の人間の専門家)と比較して、コストと時間を大幅に削減(コスト97.64%減、時間97.72%減)し、なおかつ人間の評価者との一致率が90%以上と高い精度を実現と実用的な評価手法となった
MMAU・既存の評価手法では、特定のアプリケーションの仕様に着目していることが多く、根本的な能力の評価が不十分であった

・また、失敗の原因分析ができていない、環境設定や対話型タスクの再現性・信頼性の問題があった
・能力を分解して評価することで、詳細な分析が可能になっており、複数のドメインと能力を横断的に評価

・能力を個別に評価することで計画を立てる能力と実際に実行する能力を分けることができ、モデルが「どこが得意で、どこが苦手か」を明確に把握可能である

・複数の幅広いドメインを対象にすることで総合的な観点から評価ができる。さらに、固定されたデータセットを用いているため、再現性や信頼性についても担保される
OpenHands・ソフトウェア開発は様々な複雑な要素が含まれているため、評価が困難だった・ソフトウェアエンジニアリング、Webブラウジング、その他の支援タスクをカバーした実世界の課題に近い評価方法を提案

・主に、コード生成・編集能力、Web操作能力、問題解決能力、ツール使用能力、マルチターンでの対話能力という観点で評価した

【参考文献】

  1. Zhuge et al. Agent-as-a-Judge: Evaluate Agents with Agents, 2024, https://arxiv.org/abs/2410.10934
  2. Yin et al. MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains, 2024, https://arxiv.org/abs/2407.18961
  3. Wang et al. OpenHands: An Open Platform for AI Software Developers as Generalist Agents, 2024, https://arxiv.org/abs/2407.16741

本記事のまとめ

最後まで読んでいただきありがとうございます。2024年のAIエージェントに関して、話題になったトピックをご紹介しました。LLMの性能向上に伴い、急速にAIエージェントの発展が進んできています。特に、マルチエージェントによる協調的な問題解決、GUIを通じた直感的な操作の実現、大規模なシミュレーションの可能性、そして包括的な評価手法の確立など、様々な側面で進展が見られました。これらの技術は、私たちの日常生活やビジネスにおけるAIの活用方法を大きく変える可能性があるでしょう。今後も引き続き、AIエージェントの発展とその社会実装に注目していく必要がありそうです。


このページをシェアする

あなたにオススメの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine