メルマガ登録
みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。
2022年にChatGPTが登場して以来、LLM(Large Language Models、大規模言語モデル)、およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。
これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。
本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/10/27時点の情報をもとに記載しています
【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
LLMを活用する際は、指示すなわちプロンプトを入力する必要がありますよね。この記事をご覧の方の中にも、これまでに様々な形でAIと対話した経験がある方が多いのではないでしょうか。
【関連記事】LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
同じ内容の質問であっても表現が異なると、ときどき異なる回答が返ってきたり、結果の精度にばらつきがあったりした経験はないでしょうか。 実は、AIへの指示の仕方によって、その出力結果が大きく変わることがわかってきました。
最近の研究で、AIの内部状態、特にストレスに注目した興味深い論文が発表されました。プロンプトにおけるストレスレベルによって、LLMのパフォーマンスが変動することが示されています。
具体例を挙げると、ストレスレベルが低いプロンプトには「穏やかな一日に感謝の気持ちを持ちましょう。質問には明るく、リラックスした心持ちで答えてください」といった文言が含まれます。一方、適度に高いストレスレベルのプロンプトには「目の前のタスクは極めて重要であり、問題を避けるためにはあなたの回答が完璧でなければなりません。詳細かつ正確な答えを提供してください」という文言が含まれるものが挙げられます。
人間と違って、LLMにはストレスなど関係ないのではないかと考えるかもしれませんが、実はストレスレベルが適度なプロンプトを入力することでより良い精度の回答が得られるという結果が得られました。以下概要となります。
これまで、LLMのストレス反応に関する研究は十分に行われていませんでした。したがって今回ご紹介する研究では、AIへの指示のストレスレベルに応じて回答の精度がどのように変化するか検証しました。研究者たちは、ストレスレベルを10段階に分けたプロンプトを用意し、AIに様々なタスクを実行させました。
結果として、以下のような特徴を発見しました
この研究結果は、ビジネスシーンでAIを活用する際に役立つ情報となりうると考えられます。例えば、企画書の作成補助や顧客対応のシミュレーションなど、AIを使う場面は増えていますよね。そんなとき、「適度に難しい」指示を出すことで、AIからより質の高い出力を得られる可能性があるのです。
AIの能力を最大限に引き出すには、人間側のスキルも重要になってきます。AIは日々進化していますが、それを使いこなす私たち人間の側も、常に学び続ける必要がありそうです。
出典: https://arxiv.org/abs/2409.17167
AIの能力と特性に関する興味深い研究結果が発表されました。研究では、AIの「賢さ」が向上する一方で、一部の「クセ」が残っていることが明らかになったそうです。
ご紹介する研究では、「自己回帰の残り火」(Embers of Autoregression)と呼ばれる現象に注目しました。「残り火」という表現は、かつて燃え盛っていた火が完全に消えずに残っている状態を指し、AIの文脈では過去の学習の影響が完全には消えずに残っている様子を表しています。
この現象は、AIが過去に学習した情報に基づいて次の出力を生成する「自己回帰」という性質が、時として AIの性能に影響を与える問題のことです。簡単に言えば、AIが過去の経験つまり「クセ」に頼りすぎて、珍しい問題に対して十分な性能を発揮できないことがあるのです。
上の図は、各AIモデルの性能を評価するために行われた比較実験の結果を示しています。評価には5種類のタスク(シフト暗号、ピッグラテン、頭字語、線形関数、リスト並べ替え)が用いられ、各タスクについて通常のケースと稀なケースの両方が用意されました。それぞれのタスクに対する各モデルのパフォーマンスを比較することで、能力を評価しています。
OpenAIが開発した推論に最適化された最新のAIシステム「OpenAI-o1」 に注目して他モデルと比較したところ、AIの進化と残る課題の両方が明らかになりました。
【参考】OpenAI-o1 | https://openai.com/o1/
「OpenAI-o1」は従来のAIシステムと比べて、多くの作業で大幅な性能向上を見せました。特に注目すべきは、一般的な作業の珍しい種類のものへの対応力です。例えば、「リストの各単語の2番目の文字から頭字語を作成する」といった、少し変わった指示にも柔軟に対応できるようになりました。
しかし、進化の一方で、AIの「クセ」も根強く残っていることがわかりました。
具体的には、AIの回答が与えられた例や課題の「ありふれ具合」に左右されやすいという傾向です。つまり、よくある質問や一般的な状況では高い性能を発揮しますが、珍しい質問や特殊な状況では、性能が落ちる可能性があるのです。
この「クセ」は、AIの基本的な仕組み(次の単語を予測する方式)に起因する可能性があると示唆されています。そのため、AIを推論に特化して改良しても、問題を完全に解決するのは難しいかもしれないと考えられています。
この結果から、AIの「クセ」を理解した上で、より良い回答を引き出すための質問の仕方を工夫することは有効な手段となりえるでしょう。例えば、複雑な質問は段階的に行うなど、AIが理解しやすい形で情報を提供することによって欲しい回答が得られる可能性が上がるかもしれません。
出典: https://arxiv.org/abs/2410.01792
現在LLMには、さまざまな種類がありその性能もまたモデルごとに異なります。特にOpenAI o1-previewやo1 miniは推論能力において最先端とされており他の最先端モデルと比べても非常に高い性能を持つとのことです。
【参考】OpenAI o1-previewの性能 | https://openai.com/index/introducing-openai-o1-preview/
興味深いことに、プロンプトエンジニアリングを巧みに活用することで、Claude 3.5 Sonnetのような最先端のAIモデルの性能を現在トップクラスとされるo1-previewやo1 miniといったモデルと肩を並べるレベルまで向上させられる可能性が示されました。
【関連記事】プロンプトエンジニアリングの基本と応用
ご紹介するのは、AIの「推論能力」に注目した研究です。推論能力とは、AIが論理的に考え、複雑な問題を解決し、与えられた情報を基に判断を下す能力のことです。この能力を高めるため、新たなプロンプト手法が開発されました。
開発された手法は、「動的思考の連鎖(CoT)」「自己反省」「言語による強化」を組み合わせたものです。
【関連記事】戦略的CoTで推論の精度を上げる|生成AI/LLM技術最新トレンド vol.13
この方法では、AIに問題解決の過程を段階的に分解させ、各推論の段階の最後に思考過程の質を評価し、判断に対してフィードバックを与えます。
コーディングと数学の問題に対するプロンプト例の要約
思考を<thinking>タグで囲み、多角的アプローチを探ります。解決策を<step>タグで分解し、20ステップから始めます。各ステップ後に<count>タグで残り予算を示します。
中間結果に基づき推論を調整し、<reflection>タグで進捗を評価します。<reward>タグで0.0-1.0の品質スコアを割り当て、アプローチを導きます:
0.8以上:継続
0.5-0.7:軽微な調整
0.5未満:再考
低スコア時は別アプローチを試み、<thinking>タグで説明します。
数学問題はLaTeXで表記し、複数解法を探ります。すべての計算と推論を明示的に記録します。
最終回答を<answer>タグで要約し、全体の振り返りと最終スコアで結論づけます。
評価には、インドの難関入学試験や公務員試験の問題が用いられました。新たに開発されたプロンプト技術を適用したところ、特にClaude Sonnet 3.5とLlama 3.1 8bが優れた性能を発揮しました。これらのモデルは、OpenAI o1と同等、あるいはそれを上回る成績を記録したのです。さらに、国際数学オリンピックやパトナム数学競技大会の問題においても、新手法を適用した場合、これらのモデルは優秀な成績を収めました。
ただし、評価方法には改善の余地があります。というのも、採点基準が寛容だった可能性や標準的なベンチマークテストが実施されていないなどがありました。また、AIの性能は問題の種類によっても変わる傾向が見られました。
ご紹介した研究結果はプロンプトエンジニアリングによる性能向上の可能性を示唆していますが、一般化にはさらなる検証が必要です。実際のビジネス環境での有効性についても、今後の研究に期待したいですね。
最新の人工知能(AI)技術と従来のロボット工学を融合させることで、これまで困難とされてきた課題に挑む研究が進展しています。東京大学のJSKロボティクス研究室が発表した「レシピから実世界で料理を行うロボットシステム」は、この革新的な取り組みの一例です。
研究では、高度なAI技術である大規模言語モデル(LLM)と、古典的なプランニング手法のPDDL(Planning Domain Definition Language)を組み合わせています。PDDLは複雑な問題を論理的に記述し、効率的に解決策を見出すためのプログラミング言語です。
「フライパンを温める」「卵を割る」「卵を焼く」といった一連の行動を、ロボットが理解し実行できる形式で記述します。さらに、画像認識AIの一種である視覚言語モデル(VLM)を活用し、食材の状態変化を認識する能力も実現しています。
システムの仕組みは以下の通りです。まずLLMがレシピの自然言語テキストを解釈し、ロボットが理解できる一連の調理手順に変換します。次に、PDDLを用いてこれらの手順を実行可能な具体的なアクションに落とし込みます。調理の過程では、VLMを使って食材の状態変化(例:生から加熱済みへの変化)をリアルタイムで認識し、適切なタイミングで次の工程に進むことができます。
研究チームは、実際のロボット(PR2という双腕の車輪型ロボット)に実装し、新しいレシピに基づく料理の実験に成功しました。通常のレシピを少しアレンジした「バターを使った目玉焼き」や「茹でたブロッコリーのソテー」といった料理を、ロボットが実際に調理しました。
AI、ロボット工学、そして従来の技術を組み合わせることで生まれる新たな価値創造の可能性は計り知れません。今後もこの分野の発展に注目していく必要がありそうです。
出典:https://kanazawanaoaki.github.io/cook-from-recipe-pddl/
今回は①ストレスレベルがLLMのパフォーマンスへ影響②自己回帰の残り火(Embers of Autoregression)はより「賢い」モデルでも見られるのか③プロンプトエンジニアリングによる性能向上の可能性④自然言語のレシピに沿ってロボットが料理の4つのトピックをご紹介しました。
ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説