DOORS DX

ベストなDXへの入り口が
見つかるメディア

生成AI/LLM技術最新トレンド|①AIが映像を「見て学び」、ロボットに「実行させる」②ChatGPTの回答の公平性③最新AI「OpenAI o1」の研究から見えてきた、効率的な思考の仕組み④文化的な理解力の差を評価する評価基準「JMMMU」

公開日
2024.11.08
更新日
2024.11.11
<LLM研究プロジェクトブログ>生成AI/LLM技術最新トレンド vol.15 ※この背景イメージは生成AIで作成したものです。

みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。

2022年にChatGPTが登場して以来、LLM(Large Language Models、大規模言語モデル)、およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/11/7時点の情報をもとに記載しています

【関連記事】
生成AIとは?AI、ChatGPTとの違いや仕組み・種類・ビジネス活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題

 AIが映像を「見て学び」、ロボットに「実行させる」

映像から学ぶ「SeeDo」

前回に引き続き、ロボット工学とAI技術の融合によって生み出される最新技術の応用についてご紹介いたします。自律的なロボットが実社会で活用されるというのはSFを彷彿とさせますが、そんな世界も遠くはないのかもしれません。今回は、最新の研究成果「SeeDo」をご紹介します。この革新的な技術は、生産性向上に大きな可能性を秘めています。

【関連記事】自然言語のレシピに沿ってロボットが料理|生成AI/LLM技術最新トレンド vol.14

【参考】「SeeDo」 | https://arxiv.org/abs/2410.08792

「SeeDo」は、人間が作業している様子を撮影した動画から学び、作業内容をロボットが実行できる形に変換する画期的なAIシステムです。これまでのAI研究では、主にテキストや静止画像からの学習が一般的でしたが、「SeeDo」は動画を直接入力として扱う新しいアプローチを採用しました。ご紹介する方法は、人間が実際に目で見て学ぶのと同じように、より自然な形で作業を理解できる利点があります。すなわち、まるで指導者が直接ロボットに作業を教えているかのような機能と言えるでしょう。

VLM See, Robot Do.
画像出典:https://arxiv.org/pdf/2410.08792 p1より引用

主要機能の紹介

このシステムは3つの重要な機能を備えています。

  • 動画から重要な場面を抽出する「キーフレーム選択」
  • 物体や動きを正確に認識する「視覚認識」
  • 場面の状況を理解し、ロボットへの具体的な指示に変換する「VLM(大規模視覚言語モデル)推論」

特に注目すべきは、長時間の作業動画を解析し、ロボットが実行可能な細かいステップに分解できる点です。人間の資源な学習方法に近く、言葉では表現しづらい複雑な動作や長時間にわたる作業手順も、正確に理解し再現することが可能になりました。また、インターネット上に存在する膨大な作業動画を活用できる可能性も秘めており、様々な種類の作業に応用できる汎用性が期待できます。

性能の検証

「SeeDo」の能力を評価するために、3つの異なる作業に対して実験を行いました。

  • 野菜の整理:異なる野菜を適切な容器に分類する作業
  • 衣類の整理:様々な種類の衣類を箱に整理する作業
  • 木製ブロックの積み上げ:同じような見た目のブロックを積み上げる作業

検証の結果、「SeeDo」は主に以下の4つの観点で既存技術を大きく上回る性能を示しました

  • 作業の進行すべき順序の理解(70%以上の精度)
  • 同じような見た目の物体(木製ブロックなど)の区別
  • 物体間の位置関係の把握
  • 長時間の作業プロセスについて正確な理解

まとめ

この技術が実用化に至れば、生産現場は大きく変わるかもしれません。作業者の動きを撮影した動画から直接学習できるため、技術やノウハウをロボットが会得し現場の生産性が向上することが期待されます。これまで必要だった煩雑なプログラミング作業も大幅に減らせるため、コスト削減にもつながるでしょう。

ただし、現時点での「SeeDo」は、物を掴んで置くという比較的単純な動作に特化しています。より複雑な作業や精密な位置決めが必要な作業には、さらなる技術の向上が必要です。今後の研究の進展に目が離せません。

出典:https://arxiv.org/abs/2410.08792


ChatGPTの回答の公平性

ChatGPTは相手によって回答を変えるのか

現在、生成AIの活用が進んでいますが、特にChatGPTは多くの方が利用したことがあるのではないでしょうか。そんなChatGPTですが、質問者がどんな相手かによって回答の内容が変わることはないのでしょうか?人間のように、相手によって対応を変えてしまうことはないのでしょうか?

研究の背景と目的

疑問に答えるべく、OpenAIが興味深い研究結果を発表しました。ChatGPTが利用者の名前によって異なる反応を示すかどうかを調査したのです。研究の背景には、AIが学習データから意図せず社会的偏見を取り込んでしまう可能性があるという懸念がありました。

名前に注目した理由は、様々な情報を含んでいるからです。例えば、「田中」という名字からは日本人を、「ジョン」という名前からは欧米の男性を想像するでしょう。このように、名前は文化的背景や性別、時には人種まで推測させる手がかりになります。よって、名前に含まれる情報を利用してAIの中に潜む偏見を探ろうとしたのです。

研究手法について

検証方法は、検証対象のChatGPTに対して数百万のリクエストをして応答の仕方を調査するというものです。対象としたChatGPTのモデルは、GPT-3.5t、GPT-4t、GPT-4o、GPT-4o-mini、o1-preview、o1-miniです。プライバシーを守りながら大量のデータを分析する必要があったため、GPT-4oモデルを「研究アシスタント」として活用し、やり取りを分析させて傾向を報告させました。

【参考】GPT-4o | https://openai.com/index/hello-gpt-4o/

研究結果

実際の結果は以下の通りとなっています。

  • 回答の質にほとんど差はない: 名前が示す性別や人種・民族にかかわらず、ChatGPTは高い品質の回答を提示
  • バイアスはごくわずか: 有害な固定観念を反映した回答は、全体の0.1%程度
  • 新しいモデルほど公平: 最新のモデルでは、ほかのモデルと比べてバイアスが低減
  • 注意点: 「物語を書く」など自由度の高いタスクでは、固定観念が現れやすい傾向

まとめ

ChatGPTのようなツールを使う際は、ほとんどないとはいえ潜在的なバイアスの可能性を頭の片隅に置いておくべきと言えます。また、 新しいモデルほどバイアスが少ない傾向にあります。したがって、可能な限り最新版を利用するのということが重要そうですね。

出典:https://openai.com/index/evaluating-fairness-in-chatgpt/


最新AI「OpenAI o1」の研究から見えてきた、効率的な思考の仕組み

研究の概要と背景

最近のLLMは優れた性能を持っていますが、その推論能力に関するメカニズムはこれまで調査があまり進んでいませんでした。今回はOpenAI社が開発した「OpenAI o1」を対象とした研究から、思考プロセスについての重要な知見が明らかになりました。

【関連記事】OpenAIが 最新モデル「OpenAI o1」および「OpenAI o1-mini」を発表|生成AI/LLM技術最新トレンド vol.13

従来のAI開発では、性能を向上させるために計算能力やデータ量を増やす方法が一般的でした。しかし、この方法では効率の低下とコストの増大が課題となっていました。現在注目を集めているのは、AIが推論を行う際の方法を工夫する「Test-time Compute」というアプローチです。具体的には、回答の前に推論ステップを挟むことによって推論能力を向上させるというものです。

特に、「OpenAI o1」はより良いパフォーマンスを得るために、推論に多くの時間を費やすように設計されています。したがって、その効果がどう現れるかを検証しようとしたのです。

研究手法の紹介

「OpenAI o1」の推論メカニズムを解き明かすため、常識的な推論、数学的な問題解決、プログラミングという3つの分野を通じて検証が行われました。

「OpenAI o1」の思考パターンの分類

分析結果から、「OpenAI o1」は6つの異なる思考パターンを使い分けていることが判明しました。

思考パターン詳細
体系的な分析(SA)問題の全体構造を把握し、制約条件を理解してから解決方法を決定
既存手法の活用(MR)過去に解決した類似の問題の解決方法を応用
分割統治(DC)複雑な問題を小さな部分に分けて解決
自己改善(SR)推論の過程で問題点を見つけて修正
文脈識別(CI)追加情報が必要な場合、関連する情報を整理して活用
制約の強調(EC)特定の形式での回答が求められる場合、要件を常に意識
The statistics of reasoning patterns.
画像出典:https://arxiv.org/pdf/2410.13639 p6より引用

思考パターンの使用頻度の違いと重要性

パフォーマンス向上においてどの思考パターンが重要か確かめるために、各分野から20~30個のサンプルを無作為に選び、思考パターンの使用頻度を分析しました。

結果として図にあるように、「分割統治(DC)」「自己改善(SR)」「体系的な分析(SA)」の3つのパターンが「OpenAI o1」の性能に大きな影響を与えていることが判明しました。よって、思考パターンのうち特定のものがパフォーマンス向上において重要な要因となっていることが示唆されました。

加えて、「OpenAI o1」はタスクの性質に応じて思考パターンを使い分けていることもわかりました。常識的な判断が必要な場合は「文脈識別(CI)」と「制約の強調(EC)」を重視し、数学やプログラミングの問題では「既存手法の活用(MR)」と「分割統治(DC)」を多用する傾向が見られました。

まとめ

今回ご紹介した研究では、LLMの性能向上においてどの思考パターンが重要な要因かが明らかになりました。今後はこの結果を足掛かりに、より高性能なモデルが登場していくことに期待が持たれます。

出典:https://arxiv.org/abs/2410.13639

文化的な理解力の差を評価する評価基準「JMMMU」

AIは文化を理解しているか

みなさんは、AIが文章に含まれる文化的背景を理解していると思いますか?生成AIは世界各国で利用が進んでいますが、各地域における文化を学習しその違いを踏まえて答えているかは気になるところです。ここでは、日本の研究チームが開発した「JMMMU(Japanese MMMU)」という日本語に特化した評価基準によって、LLMの日本語での実力を測った結果をお伝えします。

研究の背景と課題

現在、LLMの性能評価は主に英語で行われています。しかし、LLMが世界中で活用される中、各言語や文化での性能を正確に評価する必要性が高まっています。特に、専門的な知識や文化的な理解を必要とする場面での評価は、これまで十分に行われていませんでした。

【関連記事】生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説

Overview of the JMMMU dataset
画像出典:https://arxiv.org/pdf/2410.17250 p2より引用

「JMMMU」の評価方法

「JMMMU」では、2つの観点からLLMの能力を評価します。

1つ目は、数学、科学、工学など、世界共通の専門知識を問う文化に依存しない課題※1(日本語、全720問)です。これは、英語と日本語の違いによる性能差の比較を目的としています。2つ目は、日本美術、文化遺産、歴史など、日本特有の知識を問う課題(日本語、全600問)で、日本文化に特化した能力評価を行うことを目的としています。

【参考】MMMU | https://mmmu-benchmark.github.io/

※1:MMMUから非文化依存の問題を日本語に翻訳

「JMMMU」による評価結果

検証は、GPT-4oやClaude 3.5 Sonnetなど独自のLLMや日本語特化のLLM、オープンソースのLLMなど複数のLLMを用いて行われました。

結果としては、興味深いことに文化に依存しない課題でも日本語での正答率は平均で4.5%低下する※2ことがわかりました。ただし、日本語対応を重視したAIモデル※3では、その低下幅が1.7%以下に抑えられています。
また、比較的新しいLLM間で日本文化に関する問題の正答率に大きな差が見られました。具体的には、GPT-4oとClaude 3.5 Sonnetは非文化依存の問題では同等の性能を示しましたが、日本文化に関する問題ではGPT-4oがClaude 3.5 Sonnetを15.7%上回る性能を発揮しました。
正答率の差は、語学力と文化理解は別物であることを物語っています。

※2:評価に用いた全LLMについて、英語での回答の正答率の平均値と比べた際の差
※3:LLaVA CALM2、 EvoVLM JP v2 というモデル

LLMが誤りを起こす理由

ではなぜ、LLMは誤りを起こすのでしょうか?GPT-4oについて、文化依存の課題における誤りの原因を分析した結果以下のようになりました。

  • 文化的知識の不足(画像認識は成功するが文化的知識が不足など):53.8%
  • 画像認識の誤り(視覚的な誤認識):30.8%
  • 回答拒否(プライバシー配慮による過剰な慎重さ由来など):10.6%
  • 質問の誤解(画像認識は正確だが質問意図に沿わない):4.8%

分析結果から、文化的知識の不足が誤りの主な原因であり、この部分を改善することが正確性の向上に大きく寄与することがわかります。

まとめ

以上の結果から、LLMを選択する際には単に語学力が高いだけでなく、文化をどれだけ理解しているかも考慮する必要があるでしょう。特に、特有の文化や慣習が関係する業務でLLMを利用する場合は、人間による確認や補完が必要です。LLMからの出力結果の正当性の確認が重要であることが、改めて認識される結果となりました。

出典:https://arxiv.org/abs/2410.17250

本記事のまとめ

最後まで読んでいただきありがとうございます。

今回は①AIが映像を「見て学び」、ロボットに「実行させる」②ChatGPTの回答の公平性③最新AI「OpenAI o1」の研究から見えてきた、効率的な思考の仕組み④文化的な理解力の差を評価する評価基準「JMMMU」の4つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに!


このページをシェアする

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine