メルマガ登録
このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。
今回は、LLMの流行が起きている今だからこそ、改めてLLM以前の代表的な言語モデルの概要や活用時に想定されるメリット/デメリットをまとめたので、ご紹介します。
こんにちは、アナリティクスサービス部の小澤です。
ChatGPTをはじめとするLLM(Large Language Models)には、再現性の問題や、偏見などを含む不適切な文章の入出力への対応、プロンプトの入力制限数、再学習のリソース問題など、案件や事業での活用に際に発生する課題点がいまだ多く残っています(以前のBlogでも紹介しています)。また前述の課題点のいくつかは、N-gramモデルをはじめとするGPT-3登場以前のモデルで解決できる場合があります。
特に、電子カルテやアナリストレポート、日銀レポートなどのように専門性が高く、慣用表現や定型文の多いテキストデータを扱う場合は、N-gramのようなよりシンプルなモデルや、ルールベースまたは統計的手法による分析手法の相性が良いことがあります。
実際、近年のSIG-FIN(金融情報研究会)の発表においても、統計的な分析手法が用いられている研究テーマが多く存在しています。
そういった背景のもと、ChatGPTの登場からLLMの流行が起きている今だからこそ、改めてLLM以前の代表的な言語モデルの概要や、活用時に想定されるメリット/デメリットについてまとめました。
以下に続くモデルの比較が長くなってしまったため、まとめを最初に記載します。
LLMの長所を活かせる事例としては、QAシステムの構築や文章校正または編集、情報抽出のような、大規模なデータセットの事前学習や長い文脈の意味理解を活かせるような事例が考えられます。
一方で、LLMの複雑なモデル構造は、厳密性やモデルの構造または出力の説明性とトレードオフな場合がほとんどなため、そういった場面でLLM以前のモデルの活用可能性を考える必要が出てくると思われます。
長い文脈の理解を必要とせず、単純な文構造の理解や分析をしたい場合、厳密性または説明性が求められるような事例では特にシンプルなモデルの採用が考えられます。
N-gramモデルは最も基本的な統計的言語モデルの一つで、テキスト中の単語(または文字)の順序を捉えるために使用されます。”N”は連続した単語の数を表し、その数に応じてユニグラム(1-gram)、バイグラム(2-gram)、トリグラム(3-gram)などと呼ばれます。例えば、バイグラムモデルでは、各単語の出現は前の単語にのみ依存すると仮定されます。
【参考文献】
以上から、リソース制限があり、かつ短いテキストフレーズの生成や単純な予測タスクであればN-gramモデルが比較的良い結果をもたらしつつ早いレスポンスを実現可能なことが多いと思われます。具体的には、文章の自動補完や単純なチャットボットへの応用などが考えられます。
RNNは時系列データを扱うための深層学習モデルで、各時点の出力が前の時点の状態に依存するという特性を持っています。そのため、時間的な順序に従って情報を処理することができます。そのため、言語モデリングに限らず、時系列データでの活用事例も多く存在します。ここでは、メモリゲート構造は含めず、シンプルなRNNモデルについて言及します。
元々は時系列データの処理を目的としているため、自然言語処理に限らず、需要予測やマーケティング分析のような時系列分析で応用されることが多いです。またルールベースに近いモデルなため、金融や医療業界のような専門性が高く説明性を求められる場合には特にモデル候補として挙がりやすいです。
【参考文献】
LSTMとGRUはRNNの一種で、RNNが持つ長期的な依存性を学習する際の問題を緩和するために設計されました。LSTMとGRUは、ゲートと呼ばれる構造を通じて、どの情報を記憶し、どの情報を忘れるかを学習します。これにより、長いシーケンスにわたる情報の流れを制御することが可能となります。
N-gramの場合と同様に、計算コストやレスポンス時間に制限がある場合には候補モデルとして挙がりやすいです。また通常のRNNやN-gramよりも文脈理解が優れているため、より複雑な文章構造のテキストデータに対しても活用可能です。そのため、大規模なテキストデータや時系列データの学習を0の状態(事前学習なし)でさせたい場合に有効と考えられます。
【参考文献】
LLMの多くはTransformerというアーキテクチャに基づく深層学習モデルが採用されています。一般的には、大規模なテキストデータによって事前学習されたモデルをチューニングやプロンプト入力などによって微調整することで、特定タスクに活用できるモデルを構築できます。
GPTやBERTのようなLLMを用いることが特に有効な場合は、大規模なデータセットから抽象的なパターンや複雑な文脈依存の関係を学習する必要があるタスクです。以下、具体的な活用事例をいくつか挙げてみます。具体的には、QAシステムの構築や文章校正または編集、情報抽出などが特に得意な分野と思われます。
【参考文献】
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説