メルマガ登録
こんにちは。データサイエンティストの鬼頭です。
昨今のDX熱の高まりに伴い、データサイエンティストだけでなく、所謂シチズンデータサイエンティストの活躍の場も広がりそれに合わせてツールも発展の一途を辿っています。
本稿では、シチズンデータサイエンティストが扱うツールの内、特に機械学習ツールに着目し、最近のトレンドや課題点についてご説明します。特に、今後分析組織の立ち上げを検討している企業様や、データを利活用にお悩みをお持ちの方のご参考になれば幸いです。
データサイエンティストの不足が叫ばれていますが、決してデータ利活用に関するすべての業務をデータサイエンティストが行う必要はありません。
というニーズから、「シチズンデータサイエンティスト」という、数学や社会科学などを専攻し、ある程度のデータ分析スキルを有するものの、データサイエンティストほど専門特化した能力・業務範囲ではない人々の活躍の場が広がっています。
シチズンデータサイエンティストが分析業務を担うには、適切な教育とツールを提供することが特に重要です。ここでは主にツールについて議論します。
データ分析を行うにあたり使用するツールは、
に大きく分けられます。
1、2の間に位置するツールとして、最近では「拡張分析」(Augmented Analytics)と呼ばれるジャンルのツールが登場したり、また2をGUI操作でクイックに実行できるAutoML(Automated Machine Learning)を始めとしたツールも登場しています。
これらのツールの普及、進化により、シチズンデータサイエンティストにとっても機械学習がより身近なものになりつつありますが、一方でまだまだ十分に活用しきれていないのが現状と感じています。
下図は、機械学習を行う際の一般的なプロセスになります。 AutoMLを始めとした各種ツールでは、このうち、特徴量エンジニアリング、モデル選択、ハイパーパラメータチューニングを実行してくれます。
ツールにはそれぞれ特徴があり、手法や操作方法に差はあるものの、精度面については実務での利用に耐えうる一定の精度が出せるほどになっていて、様々なビジネスシーンに適用可能な状態となっています。
「データ分析は前処理が8割」と一般的に言われる通り、実際の分析業務で多くの時間を割かれるのが「データ準備」(データマート作成)の部分になります。
ツールにより、モデル構築部分に関しては身近なものになりつつありますが、このような前処理部分は依然として多くの時間を費やし、またSQL等のプログラミングスキルも必要で、シチズンデータサイエンティストによっては障壁になっているケースも多く見受けられます。
また、実際の業務で構築されたモデルを使用する際には、実地検証を行ったり、あるいはシステム実装する必要があり、結果的に実務で使用できるまでに、半年から1年程度の時間を要しています。
機械学習ツールそのものの利便性は高まっているものの、まだまだ分析業務の一部しか対応できていないのが現状です。
こうした課題を解決するため、新たな機能が提供されています。
データ準備(データマート作成)にかかる手間を解決する手段として、「AutoML 2.0」という概念が登場しています。これは未加工のテーブルに対して、テーブル間の紐付けを定義すれば、あとは自動でデータマート作成からモデル構築までを行ってくれるというものです。
弊社では以前、同様の思想を持つ海外企業製のソフトウェアの販売を検討したことがあり、生産性の向上およびノンプログラミングで実行できる操作の簡便性を実感しました。
(モデルの精度面では特に気になる点はありませんでしたが、説明変数がすべて自動で生成されるため、採用変数に納得感がなかったり、あるいは経験則に基づく変数が投入できない等の理由により、活用できるケースが限定的であることから弊社では販売を見送りました)
単に精度だけを求めるのか、あるいは完成したモデルに対して説明責任が求められるのかなど、利用状況によりツールを選定すべきかと思います。
また最近では構築したモデルをいかに素早くシステム実装するか、いわゆる「MLOps」の概念・手法に注目が集まっています。
モデルを開発してパッケージ化、デプロイ、パフォーマンス監視、再学習といった一連のプロセスを意識した製品が増えていますが、中でも各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれます。
シチズンデータサイエンティストが活躍するためには教育とツールが必要であり、そのうち特に機械学習ツールについてご紹介しました。
ツールを活用することで、モデル構築に関しては高度な統計に関する知識がなくても、一定の精度のモデルが構築できます。
ただし現状は、データ加工部分といった前処理部分で自動化やGUIで操作できるツールが提供されていないので、シチズンデータサイエンティストにとって有益なツールは、まだまだ発展途上と思われます。
また、本記事では触れていませんが、分析プロセスの分析設計の部分で課題を抱えている企業様も多く見受けられます。
分析設計とは、ビジネス課題を理解し、モデルで実現する問題設定を行う、分析を行う上での入り口となる部分です。
この部分がぶれてしまうと後にどんなに精度の高いモデルが構築できても、実務では利用できないという結果に至ってしまいます。この部分に関しては書籍等も多く出版されていますが、経験を積むことが重要であり、それを指導できる人の存在が必要となります。
また、各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれると前述しましたが、弊社西村による「Microsoft Azure」の紹介記事もあわせてご確認いただけると幸いです。
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説