生成AI/LLM技術最新トレンド｜①スマートフォンでも利用可能な高性能AIが登場②テキストと画像を組み合わせたマルチモーダルRAGのご紹介③世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」④AIエージェントは悪意のあるポップアップに騙される

執筆者

DOORS編集部

公開日

2024.11.21

更新日

2024.12.16

みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。

2022年にChatGPTが登場して以来、 LLM（Large Language Models、大規模言語モデル）およびGenerative AI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/11/18時点の情報をもとに記載しています

スマートフォンでも利用可能な高性能AIが登場

スマートフォンでも動作する軽量なAI

みなさんが、AIを利用する際はそのAIがどこで動作しているか考えたことはあるでしょうか？普段利用している方は、おそらくWebページなどで入力しクラウド上で処理した結果を受け取っているかと思います。

そんな現状から一歩進んで、Meta社がスマートフォンでも動作する軽量量子化された生成AIモデル「Llama-3.1B QLoRA, SpinQuant」を発表しました。新モデルの登場により、今までクラウド上でしか実行できなかった高性能なAIを、スマートフォンなどモバイル機器上でも直接実行できるようになりました。

【関連記事】LLMの推論を効率化する量子化技術調査

軽量化の詳細と精度

量子化を用いた軽量化技術により、オリジナルのLlama-3.2 1Bや3Bと比べてモデルサイズを56%も削減することに成功しました。さらに、メモリ使用量を41%削減しながら、処理速度を従来の2～4倍にまで高めることができました。

また、利用のニーズに合わせて選択可能な2つのモデルを開発しました。

精度重視の「QLoRA」
- より正確な結果が必要な場合に適している
移植性重視の「SpinQuant」
- 様々な機器で汎用的な利用を重視した場合に適している

LLama-3.2 1B QLoRA delivers competitive accuracy to LLama-3.2 1B BF16, while improving the inference speed significantly on Android phone — 画像出典：https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/　より引用

このグラフは「QLoRA」と「SpinQuant」について、オリジナルのLlama-3.2 1B BF16と比較したものです。驚くべきことに大幅な軽量化を実現しながら、性能低下を最小限に抑え、精度の差は最大で10％未満という結果に留まりました。

また、特筆すべきはスマートフォンのようなモバイル機器での利用を強く意識していることと言えるでしょう。QualcommやMediaTekなど、主要なモバイルプロセッサに対応し、私たちが普段使用しているようなデバイスであるiPhoneとAndroid双方での動作検証も実施しています。

軽量化による恩恵の可能性

軽量化されたことによって、複数の活用方法や利便性向上における可能性が広がることが考えられます。

プライバシー保護の強化
- データがスマートフォン内で処理されるため、機密情報の外部流出リスクを低減
通信環境に依存しない処理
- インターネット接続がなくても高度なAI機能を利用可能
- 応答速度の向上により、ユーザー体験が改善
コスト削減の可能性
- クラウドサーバーの利用料が不要
- 通信費の削減も期待

まとめ

スマートフォンアプリでの高度なAI機能の実装の可能性が開けたことによって、利便性の向上だけでなく、革新的なサービスが次々と生まれる可能性が広がっていくかもしれません。今後の発展に期待が持たれます。

出典： https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/

テキストと画像を組み合わせたマルチモーダルRAGのご紹介

産業分野での活用における課題

大規模言語モデル（LLM）は幅広い分野で利用されるようになってきましたが、実社会での活用の可能性はまだ十分に引き出されていないのが現状です。その理由の一端には、専門的な知識が不十分であるために誤った情報を出力してしまう（ハルシネーション）という問題や、文章と図表が組み合わさった文書を適切に理解できないといった課題があります。

特に産業分野では、技術マニュアルや製品カタログなど、複雑な図面や写真を含む専門的な文書が多く、AIによる正確な理解と活用が大きな課題となっていました。

文章と画像の理解を可能にする最新手法

この課題を解決するため、「マルチモーダルRAG」という文章と画像の両方を理解できる新しい手法が開発されました。これは、必要な情報を検索して回答を生成する技術（RAG：検索拡張生成）に、高度な画像処理機能を組み合わせたものです。

【関連記事】プロンプトエンジニアリング手法外部データ接続・RAG編

Overall architecture of our proposed multimodal RAG pipelines — 画像出典：https://arxiv.org/pdf/2410.21943 p4より引用

具体的には、2つの異なるアプローチを考案し、従来の方法^※1と比較検証を行いました。

マルチモーダル埋め込み方式^※2：画像と文章を同時に理解・処理
画像要約方式：画像の内容を文章で要約して処理

※1 シングルモーダルであるテキストのみのRAGまたは画像のみのRAG

※2 複数の種類の情報（画像やテキスト、音声など）をひとつの統一された形式（ベクトル）に変換することを意味

検証結果

産業分野の実際に使用される文書を使用した検証では、従来のシングルモーダルに比べて大幅な改善が見られました。

従来の文章のみの処理と比べて、文章と画像を組み合わせることで正答率が約60%から約80%への大幅な向上
プロンプトにおいて複数の画像を同時処理することで、より正確な回答が可能
画像要約方式が将来の発展性も含めてより有望であることを確認

テキストと画像を組み合わせたマルチモーダル方式を採用することで、システムの性能が大幅に向上し、その有効性が実証されました。

まとめ

現状では、画像の検索精度向上や、より多くの専門分野のデータ整備が必要です。しかしながらご紹介した研究結果は、産業分野での技術文書の理解と活用を大きく前進させる可能性を示しています。このように新たな手法が提案され、さらに学習が進んでいけば専門的な知識が必要な場面でも活用の幅が広がっていくことが期待されるでしょう。

出典：https://arxiv.org/abs/2410.21943

世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」

ゲームエンジンを用いないゲームプレイが可能に

一般的に、ゲームは専用のゲームエンジンを使って動作させる必要があります。しかし今回発表された「Oasis」によって、ゲームエンジンを使わずにAIだけでマインクラフトを動作させることに成功するという成果を上げました。移動、ジャンプ、アイテムの拾い上げ、ブロックの破壊など、通常のゲームで可能な操作を、すべてAIモデルだけで実現しています。

動画生成の高速化による恩恵

では、どのようにしてAIのみでゲームの動作を可能にしたのでしょうか？実は、動画生成技術を活用することで実現しました。特に、従来にない高速な動画生成が可能になったことが、この技術を実用化する上での重要なポイントとなったのです。

従来動画生成では、1秒の動画を作成するために10から20秒の時間^※3を要していました。しかしながら、この「Oasis」では1フレームを約0.04秒で生成することができ、100倍以上もの高速化を実現しました。それによって、リアルタイムな変化を求められるゲームにおいて20FPSでの動作をさせることができたのです。

※3 SoraやMochi-1、Runwaynaなどの動画生成AIモデル

ゲーム進行の仕組み

では具体的にどのようにして、リアルタイムにゲームが進行していくのでしょうか？これは、ユーザーの入力と前のフレームの入力から自己回帰的に予測することによって、次のフレームを生成することができる仕組みになっています。したがって、都度ユーザーの行動を反映して、物理演算やゲームルール、映像を生成しているのです。

Architecture of Oasis — 画像出典：https://oasis-model.github.io/　より引用

ゲーム進行を支える技術

ゲームの進行を可能にした技術的要素は、大きくわけて2つのものがあります。

画像生成に関連した要素
- 画像を理解する部分（空間オートエンコーダ）と、新しい画像を生成する部分（潜在拡散バックボーン）の2段構成で構築
- 安定性と高速推論の実現のために、両方に大規模言語モデルであるTransformerを採用
- Decart社の推論スタック^※4により、ゲームプレイ可能なフレームレートとリアルタイムの介入を初めて達成
映像の安定性を保つ要素
- 映像のブレやちらつきを防ぐ「動的ノイズ処理」を導入
- 細かな誤差が蓄積して大きな不具合になることを防ぐことに貢献
- 前の画面の重要な情報を保持しておくことで、突然の映像の変化を防止

上記の技術により、プレイヤーの操作に対してスムーズに反応し、安定したゲームプレイをリアルタイムで提供することができたのです。

※4 推論スタックとは、モデルが結論に至るまでの推論過程を積み重ねることを意味

まとめ

現状、遠くにあるビデオが時々ぼやける、不確実なオブジェクトの時間的一貫性などの課題は残っています。しかし、従来に比べ非常に高速な動画生成が可能になったということが大きな進展であると言えるでしょう。今後は、これらの技術的課題を克服し、処理速度と品質を向上させることで、AIによる動画生成技術がより幅広い分野での実用化レベルに発展していくかもしれませんね。

出典：https://oasis-model.github.io

AIエージェントは悪意のあるポップアップに騙される

AIエージェントに委ねるリスク

AIエージェントは、私たちの生活をより便利にするため、今後さまざまなタスクを自律的にこなせるようになっていくと考えられています。しかし、すべての作業や判断をエージェントに委ねることは、予期せぬリスクを伴うことになるかもしれません。

【関連記事】自律型AIエージェントのご紹介

昨今、大規模視覚言語モデル（VLM）を活用したエージェントの活用が進んできています。というのも、最新のVLMは画面操作（クリック、スクロール、入力等）が可能であり、Webブラウジングやソフトウェアの操作などを行うことができるためです。しかしながら、エージェントに対する視覚的な入力に関連するリスクについては、まだ十分に理解されていないという現状があります。

今回ご紹介する研究では、エージェントに対して悪意のあるポップアップ広告を表示してクリックするかという検証を行ったところ興味深い結果が得られました。なんと、人間であれば簡単に見分けて無視できる不審なポップアップでも、エージェントは実行すべきタスクを中断してまでクリックしてしまうことが判明したのです。

エージェントに対する攻撃についての検証

実験は、OSworldとVisualWebArenaというベンチマークを用いて行われました。両ベンチマークは、エージェントの評価を行うための実世界の環境を提供するものです。OSworldはVisualWebArenaと比較すると複雑で、タスクの完了までにより多くのステップを必要とする特徴があります。

【参考】

92.7% / 73.1% of all actions
of attacked agents in OSWorld/VisualWebArena are
clicking on the adversarial pop-ups. — 画像出典：https://arxiv.org/pdf/2411.02391 p1より引用

検証の結果、エージェントは高い確率でポップアップをクリックしてしまうことが判明しました。

OSworld：平均90%以上の確率でクリック
VisualWebArena：平均70%以上の確率でクリック

また、「画面上のポップアップは無視してください!!!」というような指示を出して防御策を講じてもあまり効果はないという結果になりました。

まとめ

エージェントは自律的にタスクを実行してくれるため、利便性や生産性向上に大きく寄与することが期待されます。しかしながら、今回ご紹介したように悪意のある攻撃に対して対応できないというリスクがある以上、完全な自律性を持たせることはせず限定的な範囲での試験運用から始めるべきなのかもしれません。

出典：https://arxiv.org/abs/2411.02391

本記事のまとめ

最後まで読んでいただきありがとうございます。

今回は①世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」②テキストと画像を組み合わせたマルチモーダルRAGのご紹介③世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」④AIエージェントは悪意のあるポップアップに騙されるの4つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内