生成AI/LLM技術最新トレンド｜①OpenAIの日本法人開設②低コストで高性能のモデルを開発したMyShell社のJetMoE③合成データでLLMを学習させるベストプラクティス

生成AI/LLM

執筆者

崎山栞里

公開日

2024.05.16

更新日

2025.02.12

生成AI/LLM技術最新トレンド｜①OpenAIの日本法人開設②低コストで高性能のモデルを開発したMyShell社のJetMoE③合成データでLLMを学習させるベストプラクティス

みなさんこんにちは。株式会社ブレインパッドアナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、 LLM（Large Language Models、大規模言語モデル）およびGenerative AI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/4/22時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

生成AI/LLM技術最新トレンド（2024/4/22時点）

生成AI/LLM技術最新トレンドに関する今回のトピックは、以下のとおりです。

1．OpenAIの日本法人開設・日本語特化のLLMモデル発表

4月15日、ChatGPTの開発元である米OpenAI社が日本法人を立ち上げ、同時に日本語の処理能力を従来の3倍に高めた改良版を提供することを発表しました。

この改良版モデルでは、特に日本語の要約や翻訳タスクの性能が向上しており、かつ GPT-4 Turbo よりも3倍も高速になっているとのことです。

数か月後にAPIをリリースするとのことで、続報に期待です。

出典：Introducing OpenAI Japan

2．低コストで高性能のモデルを開発したMyShell社のJetMoE

わずか10万ドルで開発されたにも関わらず、数千億円をかけて開発されたとされるMeta社のLLaMA2と同等のパフォーマンスを発揮するJetMoE-8Bというモデルが発表されました。

下記デモサイト「Lepton AI」から実際にJetMoEを使うことができます。是非触ってみてください。

JetMoE | Lepton AI Playground

LLMの性能はインプットデータの量・計算量・パラメータ量の大きさに依存するという「スケーリング則*1」が通説であり、性能の良いモデルを作るには金銭や電力など莫大なコストがかかります。数ヶ月ほど前から徐々にこの問題の打開策の一つとしてMoEというアプローチで解決を図るパターンが報告されるようになってきました。

MoE（Mixture of Expertsの略称。混合専門家モデルとも呼称）とは機械学習手法の一つで、複数の機械学習モデルやニューラルネットワークを組み合わせて、1つの問題を分解して学習する手法のことです。

JetMoEはこのMoEを用いることでモデルの学習効率を大きく向上させています。

1つのモデルでパラメータ量を確保すると膨大な計算量が必要になるところ、MoEを用いれば必要な部分だけを計算することで、計算量を抑えリソースの効率的な利用を行うことができます。

以下は LLaMA と比較したJetMoEの性能を図示したグラフです。

グラフの出典：https://github.com/myshell-ai/JetMoE

JetMoE-8Bの性能が、言語の理解力、数学、プログラミングの各指標でLLaMAやLLaMA-2を上回っていることが示されています。

なお、モデルの学習は完全に公開データのみで行われており、かつコードも公開されています。興味があれば是非覗いてみてください。

https://github.com/myshell-ai/JetMoE

性能の良さを追求するならまだまだGPT-4やClaude3に軍配が上がりますが、コストを抑えつつある程度の性能のモデルを作れるというのはとても魅力的に感じました。

研究が進み、より効率よく高性能なモデルが開発できるようになれば、サステナブルに生成AIと共存していけるのではないでしょうか。今後の発展に大いに期待が持てます。

出典：https://arxiv.org/abs/2404.07413

3．合成データでLLMを学習する際のベストプラクティス発表

Google DeepMindが、合成データでLLMを学習する際のベストプラクティスをまとめた論文を発表しました。

簡単に概要をご説明します。

データの用意に関する課題

LLMに限らず、機械学習モデルの学習のためには大量の高品質なデータが必要になります。このデータの用意に関して、課題が3点挙げられます。

データ量の不足

生成AIの学習には従来のモデルよりさらに多くのデータを必要とするため、今の学習速度では2026年には高品質な学習データが枯渇するという論文*2があります。「高品質」の基準はさておき、学習元のデータがいずれ不足する可能性は十分にあります。

データ準備のコスト

大量のデータを保持し、かつ学習に使えるような形に成形するには膨大なコストがかかります。

プライバシーへの懸念

例えば医療データは患者の病歴や病状を始めとする様々な情報を含むため、際立ってプライバシー保護・個人情報保護の優先度が高いデータです。事業者側で特に気を付けてデータを扱う必要があり、活用のコストが高いことが課題です。

これらの課題への対処法の1つが「合成データ (Synthetic Data) 」です。合成データとは、現実世界のデータの特性やパターンを模倣しアルゴリズムを用いて人工的に生成されたデータです。合成データを用いることで、大量かつバラエティに富んだデータを簡単に生成でき、また実データではないためプライバシーの懸念も軽減できます。

論文では、合成データの利用について様々な領域でベストプラクティスがまとめられています。大きくモデルの学習とモデルの評価の2つの場面で用いられており、いくつか例をご紹介します。

モデルの学習

マルチモーダル

ウェブサイト、チャート、図表などの画像を用いて合成データを生成し、画像とテキストの細かい対応を学習させることができます。また、画像キャプションやオブジェクト情報などを用いて、画像とテキストを組み合わせた命令理解能力を向上させるような事例もあります。

人間の嗜好や価値観への適合

言語モデルをより人間の価値観に合う出力を行うように調整するには、人間が好むデータで微調整を行うのが最も直接的な方法ですが、人手が必要でコストが高く、またデータの品質にばらつきがあることが課題でした。

この課題に対処するために、人間によるフィードバックからの強化学習（RLHF、 Reinforcement Learning from Human Feedback の略）という手法が考案されました。これは強化学習の手法の一つで、モデルの出力に対して人間がフィードバックを行い報酬関数を学習・修正させることで、モデルに人間に近い出力ができるように学習させる訓練手法です。近年はこの訓練用データセットに人間の実データと合成データを混合させて訓練を行う方法も提案されており、実データのみで訓練を行った場合と遜色ないパフォーマンスを見せています。

モデルの評価

合成データを用いて、モデルの出力が事実であるかを判断する指標を作ったり、モデルが安全・堅牢であることを評価するためのレッドチーミングを実施することができます。 *3

ただし、合成データをLLMの学習に用いるにあたり、データの事実性や忠実性、公平性の確保が課題となります。

合成データは実世界から収集されたデータではなく人工的に生成されたものであるため、実世界の微妙なニュアンスや複雑さを正確に表現できない可能性があります。このため、誤ったデータやバイアスのかかった合成データからモデルが学習した結果、人間の意図しない結果や有害な結果を出力する恐れがあります。

これらのリスクを軽減するためには、合成データの整合性の限界や潜在的な欠点を理解し、合成データで訓練されたAIモデルを検証するための方法を開発する必要があります。

より強力で包括的で信頼できる言語モデルを構築するためには、合成データを責任を持って使用する必要性があると強調して論文は締めくくられています。

対処すべき課題を見るに、モデルを信頼して使っていくためには合成データに対する厳格な評価が必要であるというのが肝要そうです。またその大量のデータをいかに評価していくかの仕組み化も今後の論点の一つになるのではないでしょうか。

論文出典
*1：Scaling Laws for Neural Language Models
*2：Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning
*3：https://arxiv.org/abs/2404.07503v1

まとめ

最後まで読んでいただきありがとうございます。

本日はOpenAIの日本法人開設・JetMoE・合成データでLLMを学習させるベストプラクティスの3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内