メルマガ登録
みなさんこんにちは。株式会社ブレインパッド アナリティクスコンサルティングユニットの崎山です。
2022年にChatGPTが登場して以来、 LLM(Large Language Models、大規模言語モデル)およびGenerative AI(生成AI)に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。
これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。
本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/4/22時点の情報をもとに記載しています
【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
生成AI/LLM技術最新トレンドに関する今回のトピックは、以下のとおりです。
4月15日、ChatGPTの開発元である米OpenAI社が日本法人を立ち上げ、同時に日本語の処理能力を従来の3倍に高めた改良版を提供することを発表しました。
この改良版モデルでは、特に日本語の要約や翻訳タスクの性能が向上しており、かつ GPT-4 Turbo よりも3倍も高速になっているとのことです。
数か月後にAPIをリリースするとのことで、続報に期待です。
わずか10万ドルで開発されたにも関わらず、数千億円をかけて開発されたとされるMeta社のLLaMA2と同等のパフォーマンスを発揮するJetMoE-8Bというモデルが発表されました。
下記デモサイト「Lepton AI」から実際にJetMoEを使うことができます。是非触ってみてください。
LLMの性能はインプットデータの量・計算量・パラメータ量の大きさに依存するという「スケーリング則*1」が通説であり、性能の良いモデルを作るには金銭や電力など莫大なコストがかかります。数ヶ月ほど前から徐々にこの問題の打開策の一つとしてMoEというアプローチで解決を図るパターンが報告されるようになってきました。
MoE(Mixture of Expertsの略称。混合専門家モデルとも呼称)とは機械学習手法の一つで、複数の機械学習モデルやニューラルネットワークを組み合わせて、1つの問題を分解して学習する手法のことです。
JetMoEはこのMoEを用いることでモデルの学習効率を大きく向上させています。
1つのモデルでパラメータ量を確保すると膨大な計算量が必要になるところ、MoEを用いれば必要な部分だけを計算することで、計算量を抑えリソースの効率的な利用を行うことができます。
以下は LLaMA と比較したJetMoEの性能を図示したグラフです。
グラフの出典:https://github.com/myshell-ai/JetMoE
JetMoE-8Bの性能が、言語の理解力、数学、プログラミングの各指標でLLaMAやLLaMA-2を上回っていることが示されています。
なお、モデルの学習は完全に公開データのみで行われており、かつコードも公開されています。興味があれば是非覗いてみてください。
https://github.com/myshell-ai/JetMoE
性能の良さを追求するならまだまだGPT-4やClaude3に軍配が上がりますが、コストを抑えつつある程度の性能のモデルを作れるというのはとても魅力的に感じました。
研究が進み、より効率よく高性能なモデルが開発できるようになれば、サステナブルに生成AIと共存していけるのではないでしょうか。今後の発展に大いに期待が持てます。
出典:https://arxiv.org/abs/2404.07413
Google DeepMindが、合成データでLLMを学習する際のベストプラクティスをまとめた論文を発表しました。
簡単に概要をご説明します。
LLMに限らず、機械学習モデルの学習のためには大量の高品質なデータが必要になります。このデータの用意に関して、課題が3点挙げられます。
生成AIの学習には従来のモデルよりさらに多くのデータを必要とするため、今の学習速度では2026年には高品質な学習データが枯渇するという論文*2があります。「高品質」の基準はさておき、学習元のデータがいずれ不足する可能性は十分にあります。
大量のデータを保持し、かつ学習に使えるような形に成形するには膨大なコストがかかります。
例えば医療データは患者の病歴や病状を始めとする様々な情報を含むため、際立ってプライバシー保護・個人情報保護の優先度が高いデータです。事業者側で特に気を付けてデータを扱う必要があり、活用のコストが高いことが課題です。
これらの課題への対処法の1つが「合成データ (Synthetic Data) 」です。合成データとは、現実世界のデータの特性やパターンを模倣しアルゴリズムを用いて人工的に生成されたデータです。合成データを用いることで、大量かつバラエティに富んだデータを簡単に生成でき、また実データではないためプライバシーの懸念も軽減できます。
論文では、合成データの利用について様々な領域でベストプラクティスがまとめられています。大きくモデルの学習とモデルの評価の2つの場面で用いられており、いくつか例をご紹介します。
ウェブサイト、チャート、図表などの画像を用いて合成データを生成し、画像とテキストの細かい対応を学習させることができます。また、画像キャプションやオブジェクト情報などを用いて、画像とテキストを組み合わせた命令理解能力を向上させるような事例もあります。
言語モデルをより人間の価値観に合う出力を行うように調整するには、人間が好むデータで微調整を行うのが最も直接的な方法ですが、人手が必要でコストが高く、またデータの品質にばらつきがあることが課題でした。
この課題に対処するために、人間によるフィードバックからの強化学習(RLHF、 Reinforcement Learning from Human Feedback の略)という手法が考案されました。これは強化学習の手法の一つで、モデルの出力に対して人間がフィードバックを行い報酬関数を学習・修正させることで、モデルに人間に近い出力ができるように学習させる訓練手法です。近年はこの訓練用データセットに人間の実データと合成データを混合させて訓練を行う方法も提案されており、実データのみで訓練を行った場合と遜色ないパフォーマンスを見せています。
【関連記事】
ざっくりわかるRLHF(人間からのフィードバックを用いた強化学習)
合成データを用いて、モデルの出力が事実であるかを判断する指標を作ったり、モデルが安全・堅牢であることを評価するためのレッドチーミングを実施することができます。 *3
ただし、合成データをLLMの学習に用いるにあたり、データの事実性や忠実性、公平性の確保が課題となります。
合成データは実世界から収集されたデータではなく人工的に生成されたものであるため、実世界の微妙なニュアンスや複雑さを正確に表現できない可能性があります。このため、誤ったデータやバイアスのかかった合成データからモデルが学習した結果、人間の意図しない結果や有害な結果を出力する恐れがあります。
これらのリスクを軽減するためには、合成データの整合性の限界や潜在的な欠点を理解し、合成データで訓練されたAIモデルを検証するための方法を開発する必要があります。
より強力で包括的で信頼できる言語モデルを構築するためには、合成データを責任を持って使用する必要性があると強調して論文は締めくくられています。
対処すべき課題を見るに、モデルを信頼して使っていくためには合成データに対する厳格な評価が必要であるというのが肝要そうです。またその大量のデータをいかに評価していくかの仕組み化も今後の論点の一つになるのではないでしょうか。
論文出典
*1:Scaling Laws for Neural Language Models
*2:Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning
*3:https://arxiv.org/abs/2404.07503v1
最後まで読んでいただきありがとうございます。
本日はOpenAIの日本法人開設・JetMoE・合成データでLLMを学習させるベストプラクティスの3つのトピックをご紹介しました。
ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。
次回の連載でも最新情報を紹介いたします。お楽しみに!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説