メルマガ登録
みなさんこんにちは。アナリティクスコンサルティングユニットの佐藤です。
2022年にChatGPTが登場して以来、 LLM(Large Language Models、大規模言語モデル)およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。
これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。
本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/11/18時点の情報をもとに記載しています
【関連記事】
生成AIとは?AI、ChatGPTとの違いや仕組み・種類・ビジネス活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
みなさんが、AIを利用する際はそのAIがどこで動作しているか考えたことはあるでしょうか?普段利用している方は、おそらくWebページなどで入力しクラウド上で処理した結果を受け取っているかと思います。
そんな現状から一歩進んで、Meta社がスマートフォンでも動作する軽量量子化された生成AIモデル「Llama-3.1B QLoRA, SpinQuant」を発表しました。新モデルの登場により、今までクラウド上でしか実行できなかった高性能なAIを、スマートフォンなどモバイル機器上でも直接実行できるようになりました。
【関連記事】LLMの推論を効率化する量子化技術調査
量子化を用いた軽量化技術により、オリジナルのLlama-3.2 1Bや3Bと比べてモデルサイズを56%も削減することに成功しました。さらに、メモリ使用量を41%削減しながら、処理速度を従来の2~4倍にまで高めることができました。
また、利用のニーズに合わせて選択可能な2つのモデルを開発しました。
このグラフは「QLoRA」と「SpinQuant」について、オリジナルのLlama-3.2 1B BF16と比較したものです。驚くべきことに大幅な軽量化を実現しながら、性能低下を最小限に抑え、精度の差は最大で10%未満という結果に留まりました。
また、特筆すべきはスマートフォンのようなモバイル機器での利用を強く意識していることと言えるでしょう。QualcommやMediaTekなど、主要なモバイルプロセッサに対応し、私たちが普段使用しているようなデバイスであるiPhoneとAndroid双方での動作検証も実施しています。
軽量化されたことによって、複数の活用方法や利便性向上における可能性が広がることが考えられます。
スマートフォンアプリでの高度なAI機能の実装の可能性が開けたことによって、利便性の向上だけでなく、革新的なサービスが次々と生まれる可能性が広がっていくかもしれません。今後の発展に期待が持たれます。
出典: https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/
大規模言語モデル(LLM)は幅広い分野で利用されるようになってきましたが、実社会での活用の可能性はまだ十分に引き出されていないのが現状です。その理由の一端には、専門的な知識が不十分であるために誤った情報を出力してしまう(ハルシネーション)という問題や、文章と図表が組み合わさった文書を適切に理解できないといった課題があります。
特に産業分野では、技術マニュアルや製品カタログなど、複雑な図面や写真を含む専門的な文書が多く、AIによる正確な理解と活用が大きな課題となっていました。
この課題を解決するため、「マルチモーダルRAG」という文章と画像の両方を理解できる新しい手法が開発されました。これは、必要な情報を検索して回答を生成する技術(RAG:検索拡張生成)に、高度な画像処理機能を組み合わせたものです。
【関連記事】プロンプトエンジニアリング手法 外部データ接続・RAG編
具体的には、2つの異なるアプローチを考案し、従来の方法※1と比較検証を行いました。
※1 シングルモーダルであるテキストのみのRAGまたは画像のみのRAG
※2 複数の種類の情報(画像やテキスト、音声など)をひとつの統一された形式(ベクトル)に変換することを意味
産業分野の実際に使用される文書を使用した検証では、従来のシングルモーダルに比べて大幅な改善が見られました。
テキストと画像を組み合わせたマルチモーダル方式を採用することで、システムの性能が大幅に向上し、その有効性が実証されました。
現状では、画像の検索精度向上や、より多くの専門分野のデータ整備が必要です。しかしながらご紹介した研究結果は、産業分野での技術文書の理解と活用を大きく前進させる可能性を示しています。このように新たな手法が提案され、さらに学習が進んでいけば専門的な知識が必要な場面でも活用の幅が広がっていくことが期待されるでしょう。
出典:https://arxiv.org/abs/2410.21943
一般的に、ゲームは専用のゲームエンジンを使って動作させる必要があります。しかし今回発表された「Oasis」によって、ゲームエンジンを使わずにAIだけでマインクラフトを動作させることに成功するという成果を上げました。移動、ジャンプ、アイテムの拾い上げ、ブロックの破壊など、通常のゲームで可能な操作を、すべてAIモデルだけで実現しています。
では、どのようにしてAIのみでゲームの動作を可能にしたのでしょうか?実は、動画生成技術を活用することで実現しました。特に、従来にない高速な動画生成が可能になったことが、この技術を実用化する上での重要なポイントとなったのです。
従来動画生成では、1秒の動画を作成するために10から20秒の時間※3を要していました。しかしながら、この「Oasis」では1フレームを約0.04秒で生成することができ、100倍以上もの高速化を実現しました。それによって、リアルタイムな変化を求められるゲームにおいて20FPSでの動作をさせることができたのです。
※3 SoraやMochi-1、Runwaynaなどの動画生成AIモデル
では具体的にどのようにして、リアルタイムにゲームが進行していくのでしょうか?これは、ユーザーの入力と前のフレームの入力から自己回帰的に予測することによって、次のフレームを生成することができる仕組みになっています。したがって、都度ユーザーの行動を反映して、物理演算やゲームルール、映像を生成しているのです。
ゲームの進行を可能にした技術的要素は、大きくわけて2つのものがあります。
上記の技術により、プレイヤーの操作に対してスムーズに反応し、安定したゲームプレイをリアルタイムで提供することができたのです。
※4 推論スタックとは、モデルが結論に至るまでの推論過程を積み重ねることを意味
現状、遠くにあるビデオが時々ぼやける、不確実なオブジェクトの時間的一貫性などの課題は残っています。しかし、従来に比べ非常に高速な動画生成が可能になったということが大きな進展であると言えるでしょう。今後は、これらの技術的課題を克服し、処理速度と品質を向上させることで、AIによる動画生成技術がより幅広い分野での実用化レベルに発展していくかもしれませんね。
出典:https://oasis-model.github.io
AIエージェントは、私たちの生活をより便利にするため、今後さまざまなタスクを自律的にこなせるようになっていくと考えられています。しかし、すべての作業や判断をエージェントに委ねることは、予期せぬリスクを伴うことになるかもしれません。
【関連記事】自律型AIエージェントのご紹介
昨今、大規模視覚言語モデル(VLM)を活用したエージェントの活用が進んできています。というのも、最新のVLMは画面操作(クリック、スクロール、入力等)が可能であり、Webブラウジングやソフトウェアの操作などを行うことができるためです。しかしながら、エージェントに対する視覚的な入力に関連するリスクについては、まだ十分に理解されていないという現状があります。
今回ご紹介する研究では、エージェントに対して悪意のあるポップアップ広告を表示してクリックするかという検証を行ったところ興味深い結果が得られました。なんと、人間であれば簡単に見分けて無視できる不審なポップアップでも、エージェントは実行すべきタスクを中断してまでクリックしてしまうことが判明したのです。
実験は、OSworldとVisualWebArenaというベンチマークを用いて行われました。両ベンチマークは、エージェントの評価を行うための実世界の環境を提供するものです。OSworldはVisualWebArenaと比較すると複雑で、タスクの完了までにより多くのステップを必要とする特徴があります。
【参考】
検証の結果、エージェントは高い確率でポップアップをクリックしてしまうことが判明しました。
また、「画面上のポップアップは無視してください!!!」というような指示を出して防御策を講じてもあまり効果はないという結果になりました。
エージェントは自律的にタスクを実行してくれるため、利便性や生産性向上に大きく寄与することが期待されます。しかしながら、今回ご紹介したように悪意のある攻撃に対して対応できないというリスクがある以上、完全な自律性を持たせることはせず限定的な範囲での試験運用から始めるべきなのかもしれません。
出典:https://arxiv.org/abs/2411.02391
最後まで読んでいただきありがとうございます。
今回は①世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」②テキストと画像を組み合わせたマルチモーダルRAGのご紹介③世界初のリアルタイムで実行可能なオープンワールドAIモデル「Oasis」④AIエージェントは悪意のあるポップアップに騙されるの4つのトピックをご紹介しました。
ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説