生成AI/LLM技術最新トレンド｜①OpenAIが最新モデル「OpenAI o1」および「OpenAI o1-mini」を発表②LLMに自身のハルシネーションを修正させる③戦略的CoTで推論の精度を上げる④Minecraft上でAI Agentによる社会生活シミュレーションを行うProject Sid

執筆者

崎山栞里

公開日

2024.10.16

更新日

2024.12.16

生成AI/LLM技術最新トレンド vol.13 株式会社ブレインパッドアナリティクスコンサルユニット崎山栞里

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM（Large Language Models、大規模言語モデル）、およびGenerative AI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/9/19時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

OpenAIが最新モデル「OpenAI o1」および「OpenAI o1-mini」を発表

OpenAIが2024年9月12日、推論能力に長けた新たなAIモデル「OpenAI o1」および「OpenAI o1-mini」を発表しました。OpenAI o1の初期版であるo1-previewとo1-miniにはChatGPTの有料会員であればアクセスできるそうです。ぜひこの機会にお試しください。

【参考】OpenAI | https://chatgpt.com/

このモデルの特徴は、Chain of Thought^※1プロセスを挟むことで推論制度を高めていることです。

※1：Chain of Thought（CoT、思考の連鎖）とは：複雑なタスクを複数のステップに分解し、逐次的に解かせる考え方や方法論のこと。

これにより推論能力が大幅に向上しており、OpenAIのリリースによると物理学や化学、生物学のベンチマークタスクで博士課程の学生と同等のパフォーマンスを発揮し、数学やコーディングでも優れた能力を見せているそうです。

また、同リリースでは、ChatGPT上でモデルをユーザーが選ばずとも入力プロンプトから自動で適切なモデルを判断できるように取り組んでいるとの記載もあり、こちらの機能にも期待が持てます。

ChatGPT上で利用できる他、MicrosoftがGitHub CopilotにOpenAI o1-preview／o1-miniを順次導入する^※2ことを発表しており、徐々に利用できるプラットフォームが増えていくことが予想されます。

※2：https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/

ただしこの利便性の反面、OpenAI o1の思考過程は公表されていません。

上述のように、OpenAI o1はCoTを用いて推論精度を向上させていますが、その思考の具体的な過程は非公開です。ユーザーが思考の過程を尋ねても、生の推論過程を教えてくれるのではなく、第二のAIモデルによって作成されたフィルタリングされた解釈を提示するのだそうです。

利用に伴う解釈可能性や透明性の担保のために、あるいは単なる好奇心で、ハッカーやレッドチームがあの手この手でo1の思考の過程を明らかにしようとしていますが、彼らにはOpenAIからの警告が表示されたと記事では述べられています。

リスクを正しく理解し、上手く付き合っていくことが肝要そうです。 OpenAIに限らず、市場全体の動向に今後も注目したいですね。

出典：
https://openai.com/index/introducing-openai-o1-preview
https://arstechnica.com/information-technology/2024/09/openai-threatens-bans-for-probing-new-ai-models-reasoning-process

LLMに自身のハルシネーションを修正させる

AIが事実に基づかない情報を生成する現象のことを「ハルシネーション」といいます。

【関連記事】生成AIをビジネス活用する上で押さえるべき8つの評価観点

一部の論文^※3ではハルシネーションがLLMの数学的な論理構造に起因するため、根絶は不可能であると論じられています。

※3：https://arxiv.org/abs/2409.05746　など

とはいえ業務利用するにあたって、回答の正確性が求められるようなユースケースではLLMのハルシネーションはリスクになりますよね。

うまくハルシネーションと付き合うためには出力結果の評価が不可欠なのですが、理想を言えばLLMが出力する前に自分で誤りを見つけて直してくれると評価側も楽ではないでしょうか。

実はいくつかの研究^※4において、LLMには自己検証の能力があることが示されています。

※4：https://arxiv.org/pdf/2303.17651　など

みなさんも試していただきたいのですが、LLMの生成内容に対して例えば「どこが間違っていると思いますか？」などと尋ねると、LLMは自分で誤りを見つけることができます。

このことからLLMはハルシネーションに気づく能力があると言えますが、文章を生成している最中にその誤りを訂正することはありません。ではなぜ誤りを生成中に正さないのでしょうか？

今回ご紹介する論文では、LLMは自分でミスを修正するという行為を学習していないのではないか？という仮説に基づき、LLMが文章の生成中にハルシネーションを自己修正するよう事前に訓練しておくことを試みました。以下で概要をご説明します。

An illustration of how GPT-4o self-verifies and corrects its own mistakes. — 画像出典：https://www.arxiv.org/pdf/2408.16293　p2より引用

論文では、小学校レベルの算数の問題をミスを訂正しつつ解く合成データを生成し、こちらのデータを用いてLLMを事前学習しました。

ミスのない算数のデータのみで事前学習を行ったモデルと比較したところ、ミスを訂正するよう事前学習されたモデルは精度が良いことがわかりました。

これにより、LLMはミスを見つけることはできても、ミスを自己修正することは事前に学習していないと実行できない可能性が高いとわかりました。

ワークフローにLLMを組み込む際は間違いを訂正させるようなプロンプトを組み込むなどの工夫を行うと、手間なくモデルの挙動を変えることができそうです。

出典： https://www.arxiv.org/pdf/2408.16293

戦略的CoTで推論の精度を上げる

CoTとは

LLM（特に対話型の生成AI）を活用する際に、「入力時にガイドとして思考の過程を与える」「思考の過程を考えるよう指示する」というプロンプト入力のテクニックを聞いたことはないでしょうか。

このように複雑なタスクを複数のステップに分解し、逐次的に解かせる考え方をCoT（Chain-of-Thought）といい、特に数学的な問題や論理的な問題を解く際に望む解を得やすくなります。
例えば例題と答えのセットを与えることや、過程を数式で表現すること、もっと簡単な例だと「ステップバイステップで考えてみましょう」等と指示するだけでも回答精度が上がることがあります。ぜひ試してみてください。

便利なCoTですが、実は従来のCoTは推論の一貫性や精度に課題があるそうです。
今回ご紹介する論文ではこのCoTを発展させたStrategic Chain-of-Thought（戦略的CoT, SCoT）により、従来のCoTよりも推論精度を向上させることを試みています。概要をご説明します。

論文の概要

おさらいですが、CoTとは複雑なタスクを複数のステップに分解し、逐次的に推論させる手法です。

タスクを小さく分解して精度を向上させるという方向性が効果的であるということ自体は複数の論文でも言われています。
ただし、CoTは段階を踏んで推論を行う以上、前のステップに誤りがあれば以降のステップにも当然影響が発生します。各段階の精度が必ずしも一定でないため、最終的な結果に誤りが発生する可能性が残り、これが先述のCoTの課題です。

従来もCoTの課題を解決するためにいくつかの手法が編み出されています。いずれも有用である一方大きなリソースを必要とします。金銭的なコストだけでなく人間の専門家が必要になるケースもあり、実用化にはまだ課題が残っています。例えば以下のような手法が挙げられていました。

多様な推論を生成して、最も信頼性の高いものに投票させる手法
RAGを用いて外部情報を参考に推論を行う手法

これらの課題を解決するために、本論文で提案されているのがSCoT（Strategic Chain-of-Thought）です。

Comparison of some popular methods with SCoT — 画像出典：https://arxiv.org/pdf/2409.03271v1　p1より引用

SCoTは、以下の2段階のステップで推論を行うのが特徴です。

戦略的知識の獲得
戦略的知識に基づく推論

1ではモデルが問題を分析した上で、複数の問題解決戦略の中から最も効果的なものを指導的な戦略的知識として獲得します。なお、ここでいう戦略的知識というのは、同様のタイプの問題全般に適用できる汎用的な解決方法のことです。問題を解くための汎用的な知識体系と考えると分かりやすいかもしれません。

2ではこの獲得した戦略的知識をもとに推論を行います。

つまりSCoTは、戦略を立ててから実際の推論と回答生成に移らせることで精度を高めようとするアプローチです。

SCoTを用いて様々な推論タスクを解かせたところ、ほとんどのタスクで従来のCoTアプローチを上回る性能を示しました。特にGSM8k（算数の問題を8000個集めたデータセット）ではLlama3-8bでAccuracy+21.05%、Tracking Objects（連続する画像データを入力とし、動画像中で変化・移動する物体を追跡するテスト）で+24.13%という顕著な精度向上がみられています。

この結果より、ScoTがLLMの推論精度向上に有用であることがわかります。

類似手法

最後に、アプローチが類似している研究として、Plan-and-Solve (PS) Promptingという手法をご紹介します。

【参考】https://arxiv.org/abs/2305.04091

簡単にご説明すると、こちらはタスクを小さく分割する計画を立ててから実行し答えを導き出す手法のことで、以下の2段階のステップで推論を行うものです。

問題を理解し、推論の過程を生成
生成した過程に沿って質問に対する回答生成

SCOTとPlan-and-Solveはどちらも計画を立ててから実行するという点では共通しています。トピック1で出てきたOpenAI o1もそうですが、質問に対して即座に沢山の回答を出すのではなく、順序だてて考えて答えを出すと精度が上がるというのはかなり人間の思考過程に似ていますね。

出典：https://arxiv.org/pdf/2409.03271v1

Minecraft上でAI Agentによる社会生活シミュレーションを行うProject Sid

AIが自律的に思考し動けるようになってきたことに伴い、生成AIをキャラクターの行動や消費者行動などのシミュレーションに使うことができるようになってきました。

【関連記事】自律型AIエージェントのご紹介

Alteraでは、Minecraft上に1000を超える自律型AI Agentを配置し、数日間にわたって政治や経済、社会規範等の社会生活シミュレーションを行わせるProject Sidというプロジェクトを実施しました。以下概要です。

画像出典：https://www.youtube.com/watch?v=2tbaCn0Kl90　サムネイル

Project Sidにおいて、Agentたちは協力してアイテムを収集し、宝石を通貨として売買します。自律的に市場が確立され、中では宗教的な儀式や民主主義の形成など、Agent同士で高度な社会行動を行えることが観察できたそうです。
（最も多い取引は村人に賄賂を渡して資源を回収させた司祭だったのだとか…）

技術的な話で言うと、Agent同士が関係性や以前の会話記録等に基づいたリアルな会話や会話に基づく行動を行えるよう設計し、また目標と社会的な影響や動機にも注意を払わせることで、柔軟で動的な協力タスクをもこなさせることができました。

逆に、個々のAgentが小さな間違いを犯すと下流の社会的階層に影響を及ぼすことも見えてきたそうです。例えばタスクの伝達にミスがあると、タスクを請け負うグループのタスク成功率に影響を及ぼすことが挙げられていました。

これらの内容から、AI Agentは自己組織化して複雑な社会を形成できることが示されました。現実の人間社会のシミュレートにどんどん使っていけそうです。
さらに技術が発展すれば、オンライン空間においてAgentと人間がひとつの社会で生活する未来も実はそう遠くないのかもしれませんね。

出典： https://digitalhumanity.substack.com/p/project-sid

まとめ

最後まで読んでいただきありがとうございます。

今回は①OpenAIが最新モデル「OpenAI o1」および「OpenAI o1-mini」を発表　②LLMに自身のハルシネーションを修正させる③戦略的CoTで推論の精度を上げる　④Minecraft上でAI Agentによる社会生活シミュレーションを行うProject Sidの4つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内

OpenAIが 最新モデル「OpenAI o1」および「OpenAI o1-mini」を発表