このたび、ブレインパッド公式ブログ「Platinum Data Blog」に、当社のプロダクト「conomi-optimize(コノミ・オプティマイズ)」にも活用されているバンディットアルゴリズムに関する記事を掲載いたしました。
本ブログでは、強化学習の基本問題とされる「多腕バンディット問題(複数の選択肢からより良い選択肢、つまり、より報酬を得られやすい選択肢を選ぶ問題)」の内容と、基本的な解法をご紹介しています。
■ブログは、下記よりご覧ください。
多腕バンディット問題に触れてみる
掲載URL:https://blog.brainpad.co.jp/entry/2021/12/07/110446
以上