メルマガ登録
データ分析のニーズが格段に上昇している昨今。ビジネス現場で価値を出すためのデータ分析プロジェクトの遂行においては、社内だけで完結させることは難しく、データ分析を専門とするベンダー(データ分析を受注する会社)との協業が求められる場面も多くなってきています。しかし、実際にデータ分析プロジェクトを始めようとするとき、
そのようなお悩みを抱えていらっしゃる担当者の方々も多いのではないでしょうか。
データ分析が盛り上がり始めたのはここ10年弱のことであり、システム開発などに比べるとまだまだ外注した経験のある会社というのは少ないと思います。外注するということは別会社と共に1つの目標達成に向けて動くということであり、それには自社で完結するのとは違う難しさがあると思います。
そこで本記事では、「データ分析を外注する時に意識したいポイント」を代表的な5つに絞って解説していきたいと思います。私はこれまで、データ分析を専門に行うブレインパッドのプロジェクトマネージャーとして、様々なお客様のデータ活用のご相談に乗ってきました。それらの業務を通じて、「こういうポイントを意識してもらえるとありがたい」「こういう準備があると、スムーズに話が進む」など気づいた点がいくつかありましたので、僭越ながらご紹介させていただきます。
これから述べる点を守らないとデータ分析を外注できないわけではありませんので、その点はご留意いただければと思います。
まず初めに、プロジェクトの目的を明確にすることが重要になります。
これはデータ分析プロジェクト以外にも共通する部分ですが、プロジェクトとは「特定の目的を達成するために行われる期限のある活動」です。まずデータ分析プロジェクトの目的(=ゴール)を明確にし、発注側と受注側で共通認識を持つことが、プロジェクト成功に向けた第一歩となります。「目的を明確にするなんて当たり前。意識しなくてもできる」と思われるかもしれません。しかし、私の経験上、目的が曖昧で関係者の認識が揃わずにプロジェクトが進んでしまうというケースは案外多く、それゆえに思うように分析の成果が出ないという悲しい事例も見てきました。
なぜそのようなことが起きるのでしょうか。例を基に考えていきたいと思います。
とある製造業の会社において、自分がデータ活用を推進する担当者になったとします。そして、現場の部門から「製品の画像データを使って不良品検知をしたい」という要望が来たとします。あなたはこの要望を受けて、「製品画像データを使った不良品検知プロジェクト」を立ち上げることにしました。
ここで一度立ち止まって考えてみましょう。このプロジェクトの目的は何でしょうか。「画像データを使った不良品検知」というのは手段であり、目的ではありません。不良品検知をした結果何を達成したいのかが重要であり、それがプロジェクトの目的になります。
例えば、不良品検知の目的としては以下のようなものが考えられます。
一口に「不良品検知」と言っても、これだけ様々な目的が考えられます。
そして目的によって、不良品検知をどのように進めるべきかも変わってきます。
もしデータ分析を外注する際に、ベンダー(データ分析を受注する会社)とプロジェクトの目的についての共通認識を持てていない場合、どういうことが起こるでしょうか。
発注側は「製造コスト削減をしたい」と思っているのに、受注側は「製品の品質向上が重要」と勘違いしてしまったとします。その場合、受注側はモデルの精度向上に注力し、コスト度外視でモデルの開発を進めてしまうかもしれません。そうなると、最終的には目的を達成できないモデル(精度は高いが、コストの大きいモデル)が出来上がってしまい、プロジェクトは失敗となってしまいます。
以上の例からも分かる通り、まずはプロジェクトの目的を明確にし、発注側と受注側が同じ方向を目指すことが重要になります。
データ分析を外注する場合は、プロジェクトの目的をベンダーに伝えることと合わせて、その背景情報を伝えておくことも重要です。
例えば「製品の品質向上のために画像を使った不良品検知をしたい」という目的がある場合は、「なぜ製品の品質向上を目指しているか」という背景までベンダーに伝え、共通認識を持っておきたいです。
「お客様からクレームがあったため、会社として改善が急務」「会社の中長期的な展望として、製品の品質による他社との差別化を狙っている」など様々な背景が考えられると思います。ベンダーがそれらの背景情報も理解したうえでプロジェクトに取り組むことで、発注する側の目線では気づかなかった別の解決策をベンダーが提示することも可能かもしれません。例えば不良品検知の例であれば、そもそもAIを使った不良品検知に頼らなくても、実は画像のシンプルな差分検知などで事足りるケースも考えられます。
当然ベンダー側もそういった背景情報を理解しようとヒアリングをすると思いますが、その業界や業務に対する知識が不十分である場合、本質的な情報や課題感にたどり着けない可能性もあります。できれば発注する側が事前にまとめたうえで、ベンダーとの打ち合わせで伝えておくと良いと思います。私が過去経験したデータ分析プロジェクトではそれらの背景情報がまとまっていないケースも多かったですが、中にはそれらの情報を事前にまとめてくださったお客様もいました。後者のケースでは、私自身プロジェクトと業務への理解が早く進み、その後の提案もスムーズに実施することができました。
プロジェクトに使えそうなデータについて、整理したうえでベンダーに提供することも重要になります。
データ分析プロジェクトは、データの質と量が成否を左右すると言っても過言ではありません。よくデータ分析を料理に例えて「データ=食材、データ分析者=料理人」のように言われますが、本当にその通りで、データ(食材)次第で成果(料理)は大きく変わってきます。同じような課題であっても、データの質と量次第で成果が出るかどうかが変わってきます。
現在多くのデータ分析プロジェクトで使われる機械学習という手法は、既存のデータから何かしら傾向を学習し、それを使って予測や分類をするものです。そのため、例えば「画像データから異常検知をしたい」という要望があったとしても、「異常データを持っていない」「データはあるが正常・異常あわせて数十件しかない」「画質が粗い」というケースでは、正常・異常の傾向を機械学習モデルが学習しづらく、十分な精度のモデルを作ることは難しくなります(※)。
(※)異常データがなくても教師なし学習などで異常検知ができるケースもあり、一概に不可能というわけではありません。難易度が上がるという意味です。
反対に「異常データ・正常データ合わせて数千~数万件ある」「異常データも十分確保できている」「画質が綺麗」というケースでは、実現可能性もグッと高まります。これらを整理しないまま仮にプロジェクトがスタートしてしまうと、実際に始めた後に思うような成果が出ないこととなり、プロジェクトが失敗に終わってしまうリスクがあります。
そうならないためにも、どういうデータがあるかを整理してベンダーに伝え、実現可能性をある程度見極めておきたいです。データ分析は不確実性が高く、どのような精度のモデルができるか事前に正確に見積もることはできませんが、データを見ることである程度は想定できると思います。
ではどのような情報を提供すればよいのでしょうか。私の経験上ですが、「データの仕様」と「サンプルデータ」の2つを提供することで、ベンダーの理解が進むと思います。
データの仕様に関しては、以下の情報を提供できると良いと思います。
項目 | 詳細 | 備考 |
---|---|---|
データの定義 | どういうデータなのか。それぞれの値がどういう方法・定義で集計されたデータなのか | データベースに保存されている場合は、データ定義書という形で仕様が詳細に記載されている可能性があり、それを提供できると良い |
データの量 | データがどれくらいの量あるのか | 細かな数値までわからなくても、数十件なのか数千件なのか、大まかな量が分かるだけでも有効 |
データの取得期間 | どの期間に取得されたデータなのか | もし途中で取得できなかった期間があれば、その情報も提供できると良い |
サンプルデータに関してですが、実際に取得されているデータの一部をサンプルとして提供できると良いと思います。実際のデータを確認することで、ベンダーはより分析を具体的にイメージすることができますし、データの定義書だけでは分からなかった気づきが得られる可能性があります。私も過去のプロジェクトでは、最初にサンプルデータをいくつかいただき、軽く集計・分析して手法の良し悪しにあたりをつけていたこともあります。
サンプルデータの提供に関してセキュリティリスクがある場合は、「相談段階でNDAを結ぶ」「一部データをマスクして渡す」などの対処法も考えられます。会社によってセキュリティポリシーは様々なので、事前に自社のセキュリティポリシーを確認した上で、できる限りの情報提供ができると良いと思います。
これから取り組もうとしているプロジェクトに関して、過去に同様の課題に取り組んだケースがあれば、その内容を共有することも重要です。
データ分析は実際に取り組んでみないと分からないことも多いため、過去に関連する取り組みがあった場合、その知見は非常に貴重なものとなります。その知見をベンダーが知ることで、同じ轍を踏むことがなくなり、プロジェクトの実行スピードが向上したり成功確率が上がることにつながります。
例えば、とある課題に対して「機械学習モデルを使って需要予測モデルを作る」というプロジェクトを始めようとしている場合、
などは関連する過去の取り組みと言えるでしょう。ぜひ共有しておきたい事例です。
ではそれぞれの取り組みに関してどういう情報を共有すればよいかでしょうか。例えば精度が出ずに過去断念したのであれば、以下の情報が共有できると良いと思います。
プロジェクトを進めるうえで守ってほしい条件(制約)がある場合は、整理したうえでベンダーに伝えておくことが重要です。あらかじめ伝えておかないと、ベンダーからの提案が見当違いのものとなってしまったり、実際にプロジェクトを開始した後にトラブルになる可能性があります。
制約条件としては、例えば以下のようなものがあります。
制約条件というのは色々考えられるので、洗い出すのは大変かもしれません。すべてを洗い出すのは難しくても、「これは伝えておかないと相手も困るのでは」という観点で一度考えてみて、思いついたポイントだけでも伝えておくと良いと思います。
データ分析を外注する時に意識したいポイントとして、5つ紹介させていただきました。
これらを意識することでプロジェクトに取り掛かる前段階の話がスムーズに進み、プロジェクトの成功率も上がると思います。とはいえ今回お伝えしたポイントを整理できていなくても、分析会社に相談いただいて全く問題ありません。我々データ分析の専門家がヒアリングを通じてこれらのポイントを整理しますので、気負わずに外注を検討いただけると良いと思います。私自身、ざっくりとしたお客様のご要望から1つ1つヒアリングし、課題感を整理していくこともデータサイエンティストの仕事だと認識しています。
それを踏まえると、一番大事なのは、今回ご紹介した5つのポイントを踏まえ、「ベンダーと密にコミュニケーションをとる」ことです。わからないことはどんどん聞いていただいて、こうしてほしいという要望は遠慮なくお申し付けください。
内容は以上です。本記事が少しでもお役に立てば嬉しいです。
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説