メルマガ登録
少し前まではAIという言葉が流行り言葉のようになっていましたが、最近はDX(デジタルトランスフォーメーション)という言葉をよく聞くようになりました。
本稿では、AIやデータサイエンス、ビッグデータといった言葉が流行る前からブレインパッドで10年以上、様々なデータ活用プロジェクトに携わってきた筆者の実体験をもとに、データサイエンティストとしての観点で、日本におけるデータ活用のここ10年の変化についてざっくりと振り返りながら、今後のデータ活用の方向について考えてみたいと思います。
約10年前、私はブレインパッドに入社しました。当時はデータサイエンティストという言葉が一般的になる前で、それは分析官という肩書でした。
当時はまだまだビジネスに対するデータ活用は一般的ではなく、データは蓄積されているものの分析可能な形に整備されていない企業様も多かったです。
そのような中で、EC事業者は顧客単位の購買履歴が追える形でデータが蓄積されており、CRM領域でのご支援やOne to One マーケティングに関わるご支援が多かったように思います。
「機械学習」という言葉も知名度が高くなく、例えばユーザーひとりひとりのDM反応確率を予測して効果的にDMを送付する施策のような、機械学習を用いた施策は当時個人的には目新しさがありました。一方で、「現状どのような顧客がどの程度いるのか」「顧客はどのような購買行動を取っているのか」「どうすれば顧客が常連化し、他の商品やサービスも利用してもらえるのか」といった、現状理解・顧客理解のための分析も多くありました。データに基づく意思決定と言えども、つまりは分析結果を参考とした上で販促施策や事業計画を行うことを支援するプロジェクトが多くありました。
2012年頃から「ビッグデータ」「データサイエンス」「データサイエンティスト」といった言葉が流行しました。ハーバードビジネスレビューがデータサイエンティストを「21世紀で最もセクシーな職業である」と表現したのも2012年です。
今は大規模データといえば、BigQueryやRedshift、Synapse Analyticsなどが主要な候補だと思いますが、当時は大規模データと言えば主にHadoopのオンプレミス構築でした(この頃の後半には、Sparkの流行やクラウドへの移行が始まりました)。
例えば、発注量検討のための需要量予測のようなマーケティング領域以外でのご支援が増えてきて、様々な業界、業務領域においてデータの活用が進んできたのもこの頃だったように思います。
また、特にオンラインサービス事業者において顕著なのですが、例えばレコメンドやマッチングなどのように、データサイエンス技術がサービスのパフォーマンスに直接的に影響を与えるようなサービスが多くなってきたのもこの時期だったと思います。
現状理解・顧客理解のための分析は引き続き多くありましたが、それに加えて、機械学習や統計モデルによる予測によって業務効率化や施策効果向上を実現する、予測結果に基づく意思決定支援のプロジェクトが増えてきました。また、予測結果をもとに業務上の各種制約のもとでの最適配分まで求めるようなプロジェクトも複数あり、データサイエンスのビジネス活用がより直接的に業務に影響を与える方向に進んでいる実感を強く感じたのを覚えています。
2012年。先ほどは触れませんでしたが、データサイエンティスト界隈で話題となったニュースがありました。
コンピュータが勝手に猫を認識したという、俗に言う「グーグルの猫」です。画像認識の世界的コンペティションでディープニューラルネットが圧勝したのも同年です。
ブレインパッドとしてはともかく、私個人としてはこの頃は自分には関係のない世界の話だと思っていました。グーグルの猫のように1,000台のコンピュータなんて買えないですし、GPUのことも当時の私は良く分かっていませんでした。
しかしその後、GPUを計算のために利用することを推進する各種GPUベンダーの動きや、GPU専用の言語を用いなくても済むような各種深層学習フレームワークの発展とも噛み合って、深層学習(ディープラーニング)は目覚ましい発展を遂げました。ビジネスでの活用例は少ないですが、画像変換、画像生成、文章生成など予測や分類とは違ったことも深層学習で実現可能であり、囲碁のプロにAIが勝つなど象徴的な出来事がいくつもありました。
2016年頃には私は主に深層学習を用いた案件に関わるようなチームに所属し、画像や文章のようなデータも扱うようになりました。世の中全体が手探りでAIの活用に向けた取り組みを始め、画像の分類や物体検出などによる業務効率化に向けた取り組みが多かったように思います。
企業内での数値データの活用はかなり進んできて、予測結果や分類結果に基づく意思決定支援プロジェクトがますます増えてきました。最適な組み合わせを求めるようなプロジェクトも引き続き多くありました。それに加えて、画像や自然言語などのデータの活用に向けた様々な試行錯誤がなされた時期でした。 各社がAI活用に向けた様々なPoCを実施し知見を蓄え、サービス化や業務活用の段階に入ってきていたのです。
10年間を振り返ると、ビジネスにおけるデータ活用のステージが着実に上がっており、データ活用の重要性がますます大きくなっていることを改めて感じました。 データ活用のステージが上がっていくことについては、Gartner社が提唱した成熟度モデル(Gartner Model)がわかりやすいので下記に示します。
・Descriptive Analytics(記述的分析)
何が起きたかを把握するための分析です。「事実に基づいた意思決定」のために必要な、現状を定量的に示すための分析で、データドリブンを実現するうえで最も基本的な分析です。求められる分析技術自体の難易度はそれほど高くありませんが、何をどう見るかの設計は重要です。また、データがきちんと蓄積・整理されていないと、記述的分析も困難です。
・Diagnostic Analytics(診断的分析)
なぜそれが起きたのかを把握するための分析です。原因が分かれば具体的な対策を検討できます。データ間の関係性やパターンなどについて定量的に取り扱うことで、データから意思決定に有用な知見を得ることができます。
・Predictive Analytics(予測的分析)
何が起きるかを予測するための分析です。需要予測や確率予測など、今後についての予測ができれば、その予測をもとにした意思決定ができます。その予測がデータに基づいた定量的なものであることは、業務の標準化や効率化、再現性などの面において有用ですし、人間の勘と経験に基づくよりも高精度な予測ができればその分売上向上やコスト削減も期待できます。
・Prescriptive Analytics(処方的分析)
どうすれば良いかを知るための分析です。例えば組み合わせや比率など、具体的な解決策を求めることができます。発注数量を決める場合、予測的分析の段階では、データをもとに需要量を予測し、具体的な発注数は予測された需要量をもとに人が判断することとなりますが、処方的分析では、具体的な発注数までを求めることとなります。
10年前は、記述統計や統計的仮説検定により、現状を把握するための記述的分析や、一般化線形モデルのような統計モデルや決定木、回帰木といった解釈性の高い機械学習モデルを用いた診断的分析がほとんどでした。そこからデータサイエンスやAIが浸透し、現在では予測的分析にまで踏み込んだデータ活用が非常に増えています。処方的分析も徐々に増えていると思います。
労働人口の減少の中、今後も多様な業務の自動化を進める必要があるでしょう。そのためには、今後は処方的分析にまで踏み込んだデータ活用がますます重要になってくると考えられます。組み合わせ最適化などの数理最適化技術や、強化学習のような技術の重要性も増してくるでしょう。一方で、いきなり処方的分析に取り組んで効果が出るわけではありません。記述的分析や診断的分析による現状の把握の重要性が下がることはありませんし、ほとんどの場合は処方的分析のための要素技術として予測的分析が必要です。
高度な機械学習手法や深層学習の台頭によって、従来よりも高い精度で予測や分類ができるようになりましたが、人間には理解できないような大量の数式によって結果が出力されるために、ブラックボックス問題と呼ばれる、「なぜその予測や分類になったのかが説明できない」という問題がより深刻になりました。ビジネス適用においては解釈性も重要であり、今後「XAI(Explainable AI: 説明可能なAI)」の研究はますます進むと思われます。その結果、従来よりも複雑なデータ間の関係性についても知見を得ることができるようになり、なぜそうなったのかという知見を得る診断的分析についても従来以上に重要性が増してくると思います。
このように、データ活用のステージが上がっていくことでデータの生み出す価値も大きくなっています。単に過去の傾向をデータから示すだけでなく、過去の傾向を基に将来を予測したり、さらには複数シナリオの下でシミュレーションできるようにしたり、予測値をもとに業務上の制約を満たすように最適な割付を求められるようにしたりと、データ活用のステージが上がるほど自動化可能な範囲が広がりコスト削減効果も大きくなり、意思決定の精度が上がり売上向上の効果も大きくなります。少し古い話題にはなりますが、AIの自動制御によりGoogleのデータセンターの冷却設備の消費電力を最大40%削減したという事例は処方的分析のパワーを象徴する事例だと思います。
今後ますますデータから大きな価値を生み出すために、企業は活用を想定したデータの蓄積、管理を進める必要があるでしょう。例えば部門ごとにバラバラにデータが管理されていると、部門を横断したデータ活用が難しくなってしまいます。また、依然としてデータサイエンスやAIには向かない領域もあるため、データ活用を考える際には、データサイエンスやAIと人間との共生を考えていくのが良いでしょう。
我々データサイエンティストも、従来からの技術の研鑽と最新の技術のキャッチアップ、両面を続けていく必要があると考えています。
【関連】データをアクションにつなげる技術「数理最適化」とは?
「2024年問題」で日本の物流になにが起きるのか、より深く知りたい方はこちらもご覧ください。
運送業界の「2024年問題」とは?業界の現状から考える解決法
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説