強化学習とは？これから学びたい人のための基礎知識や活用事例を紹介

強化学習

執筆者

DOORS編集部

公開日

2022.11.08

更新日

2024.05.22

さまざまな企業や組織でAI導入が盛んになりつつある昨今では、AIに対してどのようにデータを学習させるべきかが課題となっています。

このような背景において、AIにデータを与えてパターンを学習させる機械学習の中で、「強化学習」を採用する現場も数多くあります。そこで今回は、強化学習の基礎知識やアルゴリズム、具体的な活用事例などについて解説します。

強化学習とは

強化学習とは、AIやコンピューターなどの「エージェント（学習者）」にデータを与えて学習させる「機械学習」の手法のひとつです。エージェントが与えられたデータを手掛かりに試行錯誤して学び、データの価値を最大化する学習方法を指しています。

※機械学習について詳しく知りたい方は、以下の記事もあわせてご覧ください。

【関連記事】機械学習とは？3つの学習手法と知っておきたい活用事例

エージェントの学習方法には、強化学習の他に「教師あり学習」と「教師なし学習」の2種類があります。教師あり学習はエージェントに正解を与えてパターンを学習させる手法、教師なし学習は、正解がない状態からエージェントが自ら正解を探して学習する手法です。

強化学習は「教師あり学習」と似ていますが、「与えられたデータをそのまま学習する」だけではなく、「長期的に価値を最大化する」ことを重視して学習させる点で異なります。例えば、所有している株式を現時点で売却するのではなく、最も利益を得られる時期を見極めたり、テトリスで最も高いスコアを得られる消し方を予測したりする学習法などが代表的です。

AI・機械学習・深層学習との関係性

AI・機械学習・深層学習と強化学習には、それぞれ深い関係があります。

そもそもAIとは「人工知能」のことで、与えられたデータをもとに自ら試行錯誤を行い、最適な行動パターンやルールを見つけて実行する存在です。AIがパターンやルールを学習する方法のひとつとして、大量のデータをAIに与えて分析させる「機械学習」が活用されます。強化学習とは、この「機械学習」の一種です。

また、深層学習とは、「ディープラーニング」とも呼ばれる学習方法のひとつです。深層学習では、人間の思考をコンピューターによって再現し、AIの学習方法に応用しようという考え方を指しています。

強化学習とディープラーニングの違いは、「学習過程で人間の指示を必要とするかという点にあります。強化学習では、AIが何を学習するかを決めるのは人間であり、あらかじめ学習するデータを与えなければなりません。一方、ディープラーニングは与えられたデータを参照して自ら学習すべき要素を発見し、試行錯誤を繰り返します。近年では、強化学習とディープラーニングを掛け合わせた「深層強化学習」という学習方法も登場しています（詳細は後述）。

※機械学習の一種であるディープラーニングが活用された「生成AI」や「ChatGPT」について理解を深めたい方は、以下の記事もあわせてご覧ください。

強化学習の基本用語

強化学習には、押さえておきたい用語がいくつかあります。ここでは、「エージェント」「環境」「状態」「行動」「報酬」の5つの基本用語について詳しく解説します。

エージェント

エージェントとは、強化学習を行う当事者のことです。例えば、AIに対して強化学習を行う場合は、「エージェント＝AI」となります。エージェントは「環境」に対して「行動」を起こし、その結果によって「報酬」を得る流れを繰り返しながら、最適な行動を学んでいきます。

環境

環境とは、「エージェントが行動を起こすための土壌」のことを指します。「エージェントに与えられた前提条件」とも表現できます。エージェントは、与えられた環境の中で、行動を起こして報酬を獲得し、学習を行います。

状態

状態とは、エージェントが現在置かれている状況のことです。言い換えれば、「エージェントの現在地」とも表現できるでしょう。エージェントは、新たな報酬を得るために、現在の「状態」から次の行動を起こします。すると、現在の「状態」は別の値に変化します。

行動

行動とは、「エージェントが起こすアクション」のことです。例えば「歩く」「走る」のような、具体的なアクションを指しています。エージェントが行動を起こすと「環境」から「報酬」が与えられて、「状態」が変化します。

報酬

報酬とは、エージェントが起こした行動によって「環境」から付与される値です。エージェントがなんらかの行動を起こすと、その結果、今までにはなかった変化が起こります。この「変化」を数値化したものが、「報酬」となります。

強化学習のアルゴリズム

強化学習の代表的なアルゴリズムには、Q学習、Sarsa、モンテカルロ法などがあります。ここでは、3つのアルゴリズムがどのような特徴を持つのか、具体的に解説します。

Q学習

Q学習とは、ある行動を取るたびに「Qテーブル」にその行動の価値（Q値）を入力し、新しく行動するたびに値を更新する学習方法です。「Qラーニング」と呼ばれることもあります。Q学習では、新たな行動を繰り返すことでQテーブルを埋めていき、「その時点で価値を最大化できる行動」をAIに学ばせます。

Qテーブルの値は、試行錯誤を繰り返して更新されるたびに信頼性が高まります。テーブルが埋まった状態で、最も高いQ値を示す行動が、最もよい報酬を得られる行動であると考えられます。

Sarsa

Sarsaとは、「S（現在の状態）」「A（エージェントの行動）」「R（報酬）」「S’（行動後の状態）」「A’（行動後の状態から判断した、エージェントの次の行動）」の5つの要素から構成される学習方法です。

現在の状態からエージェントがある行動を取ったとき、エージェントには行動に対する報酬が与えられます。その結果、「S’」という行動後の状態が確定します。その後、エージェントは「S’」という状態を前提にして、「A’」という次に取るべき最適な行動を予測し、次の行動に移ります。この流れを繰り返すことでAIが最適な行動パターンを学ぶのが、Sarsaの特徴です。

モンテカルロ法

モンテカルロ法とは、「エージェントの行動の結果、どのような報酬が与えられるか不明な状態」に効果的な学習方法です。

モンテカルロ法では、エージェントにある行動を完遂させることで得られる報酬を、「エピソード」の形で順番に記録していきます。その後、得られた報酬の平均を算出して、それぞれのエピソードが起こる期待値を割り出し、その値をAIに与える強化学習の際の「報酬」として活用します。

強化学習の流れ

強化学習は、「エージェントがなんらかの行動を起こし、報酬を獲得して、より価値の高い行動を学習する」流れが中心となります。

前述のように、強化学習の基本的な考え方は「行動の価値を最大化すること」です。そのため、さまざまな行動を起こしてエージェントが試行錯誤しながら結果を記録し、「ある前提条件が与えられたとき、最も価値の高い行動はどれか」をエージェント自身が判断できる状態にすることこそが、強化学習の最終目標ともいえるでしょう。

与えられるデータに依存することなく、エージェント自ら結果を記録して最適な行動を学習するため、さまざまなパターンの行動を何度も繰り返すことが重要になります。

深層強化学習とは

深層強化学習とは、強化学習とディープラーニングを組み合わせた学習方法です。強化学習と深層強化学習では、「ある状態において、最適な行動を学ぶ」という点では同じですが、深層強化学習における学習では、エージェントが行動を決定する手掛かりとして「ニューラルネットワーク」が用いられます。

ニューラルネットワークとは、人間の脳の思考プロセスを機械的に再現したものです。ニューラルネットワークを活用することで、ある値（離散値）に対して考えられるエージェントの行動パターンを、最大値と最小値の間であれば無限に広がる「連続値」から選択できるようになります。

連続値から行動を選択することで、人間では見つけることが難しい「突飛な行動」も含めてエージェントが試行錯誤を繰り返し、より最適な行動を発見することが可能になります。

ブレインパッドが取り組んだ強化学習の活用事例

強化学習を実践する際は、具体的な活用事例を参考にするのもおすすめです。ここでは、ブレインパッドが取り組んだ強化学習の活用事例を紹介します。

多腕バンディットアルゴリズムを活用したコンテンツの表示比率最適化

ブレインパッドでは、自社製品である「CDP・Rtoaster」に備わっている「conomi-optimize」という最適化機能を活用し、月間数千万PV規模のWebサイトにおいて、多腕バンディットアルゴリズムを用いたバナーコンテンツの表示比率最適化プロダクトを実装しました。

「多腕バンディットアルゴリズム」とは、「複数の選択肢の中から、最もよい報酬を獲得できる選択肢を選ぶ」アルゴリズムのことです。

多腕バンディットアルゴリズムを用いて上記プロダクトを実装するには、「コンテンツが随時追加・削除されること」「コンテンツの有効性が時間とともに変化すること」「Webサイトのバナーコンテンツ表示枠は1ページに複数あること」の3つの課題を解消する必要がありました。

コンテンツが随時追加・削除される課題については、「まだ十分な情報がないコンテンツに対して、既存コンテンツの中で最も報酬が高いコンテンツと同等の報酬を期待し、情報が蓄積するたびに修正する」ことで改善に成功しています。

コンテンツの有効性が時間とともに変化する課題は、直近の成果をより重視するように重みづけを行い、有効性の変化をいち早く察知できるように工夫しました。

バナーコンテンツ表示枠の課題に関しては、「文脈バンディットアルゴリズム」を活用し、「コンテンツの表示位置」によって期待報酬を調整する方法を採用しています。

多腕バンディットアルゴリズムの活用により、コンテンツの入れ替わりが激しいWebサイトにおいて、大きな改善効果が見られました。

まとめ

AIにデータを学習させる方法として、強化学習は有効な手法のひとつです。学習のためのアルゴリズムはいくつかあるため、状況に応じて最適なアルゴリズムを採用することが大切です。

近年では、ディープラーニングを掛け合わせた深層強化学習による、より高精度な学習方法の活用も広がってきています。AI・機械学習・深層学習との関係性もそれぞれ把握した上で、効果的にAI学習を行いましょう。

▼DXの定義や意味をより深く知りたい方はこちらもご覧ください
「DX=IT活用」ではない！正しく理解したいDX(デジタル・トランスフォーメーション)とは？意義と推進のポイント

「強化学習」を活用したレコメンドの精度向上で、顧客コミュニケーションはどう変わるか

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内