メルマガ登録
「データサイエンティスト」という職種をご存知でしょうか?
いま、ビジネスや研究・教育などあらゆるシーンで「データ活用」が熱い注目を浴びています。それに伴い、データ活用のスペシャリストである「データサイエンティスト」の活躍の機会が広がり、あらゆる組織のDXに日々寄与しています。
本記事ではそんなデータサイエンティストという職種について、現役データサイエンティスト*自らが解説いたします。
など、データサイエンティストにまつわる幅広いテーマについてまとめました。
データサイエンティストという職種に馴染みのない方にとっては、この記事を読むことで「データサイエンティスト」に対する理解度がグッと上がることと思います。
*データ活用によるDX推進を支援する「株式会社ブレインパッド」所属データサイエンティスト3名(川崎・兵藤・内池)が本記事を執筆しています。
データサイエンティストとは、ひとことで言うと、「データから引き出す価値を最大化するために、統計学や数学、プログラミングなどの技術を駆使してデータ活用を実践するスペシャリスト」です。
この章では、データサイエンティストの役割と位置付けを理解してもらうため、一般的なデータサイエンティストの業務内容や、取り組むテーマについて端的に紹介します。
数字や文字の羅列であるデータは、それ単体では価値を持ちません。数字や文字を意味のある値に「変換」し、解釈することでようやくビジネス価値が生まれます。こうしたデータの「変換」を通して、データとビジネス活動との橋渡しを行うことがデータサイエンティストの役割です。
データ「サイエンティスト」という響きから、研究室にこもって論文を書いたり、実験したりしているイメージを持たれるかもしれませんが、実際のところはむしろあらゆる職種と協業して価値を創出していくお仕事です。
データサイエンティストの一般的な業務例を簡単に挙げると、
などです。
解くべき課題やデータ活用先の選定についてはもちろんですが、データの分析においてもビジネスチームとの連携がとても重要になります。データを分析してみると想定外の結果が出て方向転換することがしばしばあるため、分析のプロセスは一度きり結果を出せばよいというものではありません。
データから引き出す価値を最大化するためには、どういうアウトプットを作ればビジネス上の課題解決につながるか?をビジネスチームと繰り返し議論しながら進める必要があります。
データサイエンティストが得意とする「予測技術」や「最適化技術」は活用先が広く、様々な業界のテーマを取り扱い、課題解決に導いています。
一般的にデータサイエンティストが取り組むテーマ例について以下の図にまとめました。
BtoC(広告/ 小売など) | BtoB(通信/ 製造/ 物流など) | |
---|---|---|
予測 | ・消費者行動の予測 ・売上予測 ・広告効果の予測 | ・メンテナンスのための故障予知 ・品質管理のための検品 ・需要予測 |
最適化 | ・マーケティング予算配分の最適化 ・ダイナミックプライシング ・商品配置の最適化 | ・配送ルート最適化 ・生産プロセスのスケジューリング ・在庫最適化 |
集計 / 可視化 | ・販促キャンペーンの効果測定 ・ソーシャルメディア分析 ・顧客セグメンテーション | ・消費電力のダッシュボード整備 ・物流ネットワークの分析 |
※テーマの分け方は一例であり、この表に含まれないようなテーマも存在します。
これらはいずれも「データ活用」を通じた技術であり、人間の主観からは得られない知見や判断材料の発見や、人手では成しえない生産性向上を実現した事例です。より具体的な内容については、後半のパートでご紹介します。
なおデータサイエンティストは、こうした特定のテーマに対する直接的な課題解決だけでなく「組織構築」の領域でも活躍します。たとえば「データ活用を継続的に実行するための組織づくりの支援」や、「データ基盤構築の支援」などです。
データサイエンティストである筆者自身が感じる、データサイエンティストならではの魅力を3つご紹介します。
現在活躍している多くのデータサイエンティストが、データサイエンティストを目指したきっかけとして機械学習、数学、プログラミングなどの技術の面白さを挙げています。
【関連記事】
機械学習とは?3つの学習手法と知っておきたい活用事例
学んだ技術をそのまま仕事に活かせるという特徴は、技術が好きな方にとってとても魅力的ではないでしょうか。
データサイエンス分野は現在も日進月歩の領域で、世界中から新しい技術が開発・発表され続けています。
もちろん、ビジネス価値に貢献することを考えると最新技術ばかり活用できるわけではありませんが、これらの技術や知識をもって目の前の社会を変えられるチャンスがあるというのは、とてもワクワクする職業だと思います。
現代のビジネスにおいて、データを活用することは、もはや必要不可欠になりつつあります。データサイエンティストに限らずデータを日々のビジネスに活用している方はたくさんいますが、専門知識と経験をもって課題解決のためのデータ活用を広く考え、実践できる人材はどの業界でも需要が高いです。
ちなみに、日本の一般的なビジネスパーソンで、データサイエンティストという職種を知っている割合は25.1%なのだそうです(確かに知っている:8.7%、なんとなく知っている:15.5%)。需要がありながらも、認知はまだまだ高められる余地があると言えます。
【関連記事】
【ぬるったん氏インタビュー】将来性豊かなキャリアへの扉:データサイエンティストが切り拓く世界
データサイエンティストと近い職種として「機械学習エンジニア」「データエンジニア」が挙げられます。これらの職種とデータサイエンティストとの違いについて解説します。
データサイエンティストという職種が誕生した当初は、機械学習エンジニアやデータエンジニアなどの職種はまだ存在していませんでした。それらの役割は代わりにデータサイエンティストやソフトウェアエンジニアが兼務していたのです。
しかし、データ活用が進みデータの規模も拡大するにつれて、より独自の専門性が求められるようになってきたため、近年は役割を分けて取り組むことが増えています。
※ただしこれらの職種を完全に区別することは難しく、役割やスキルセットについてもそれぞれ重なる領域があります。そのためここではあくまで、筆者が属する株式会社ブレインパッドにおける、それぞれの職種の定義・違いをご紹介します。
機械学習エンジニアは、「機械学習モデル」や「最適化アルゴリズム」を組み込んだシステムを設計、開発、運用することを主な役割としています。データサイエンティストも機械学習モデルの構築を行いますが、機械学習エンジニアはそれを日々動かす仕組みを構築するところを得意領域としています。
機械学習モデルによる予測を日々のビジネスに活用したい場合、これを継続的に実行するためのシステムが必要になります。また、機械学習モデルは入力データの傾向が変わると、もう一度学習し直すことが必要になるため、一般的なソフトウェアシステムとも異なる設計/専門知識(モデル監視、MLOps など)が求められます。
機械学習モデルを真に役立てるには、長期的な運用を考慮した設計や実装が欠かせません。こういったシーンでは、データサイエンティストと、より機械学習周りのエンジニアリングに強みを持った機械学習エンジニアとが協力して開発することで、お互いの得意領域に専念することができます。
データエンジニアは、データ活用を実施しやすくするための基盤システム(データ基盤)の構築を主な役割としています。データエンジニアがいる場合、データサイエンティストはデータエンジニアが整えてくれたデータ基盤およびデータを使って分析することになります。
データ分析では様々な種類のデータを紐づけて関係性を調べるため、複数のデータソースからのデータ連携が必要になることがあります。また、連携された生データをそのまま分析に使えることはほとんどなく、大量のデータを分析しやすい形に整理・加工することが必要です。
こうしたデータ連携や大規模データ処理には、クラウドやネットワーク、セキュリティ、分散処理に関する専門知識が必要になるため、インフラのスキルを持ったデータエンジニアが活躍します。
【関連記事】
データエンジニアとは ~役割、他のエンジニアとの違いなど~
この章では、筆者の見解をもとにして、現在(2023年11月時点)のデータサイエンティストの仕事について「どういう仕事なのか」「その仕事をどうやって行うか」を解説していきます。
上記は確かに基本的な仕事の一部ではありますが、一方で筆者はこれだけだとデータサイエンティストの多岐にわたる仕事内容を捉え切れていないと思っています。そこでここからは、現在の時流に合わせたデータサイエンティストの仕事の実態を、筆者の立場からより具体的にお伝えできればと思います。
※なお、今回の説明は「データ分析・活用を他社から受託して行う弊社(ブレインパッド)のデータサイエンティスト」としての視点をもとにしています。事業会社や研究機関などでのデータサイエンティストの仕事は本記事とは異なる点もあるかと思いますので、その点を考慮に入れてお読みください。
そもそも、データサイエンティストという職業は具体的にどういう仕事をしているのでしょうか?色々な捉え方があると思いますが、本記事ではデータサイエンティストが関連する仕事を3つに分けて解説します。
これは以前からよく見られる仕事の形で、概念実証と呼ばれます(英語ではProof of Concept、以下PoCと表記します)。データを価値に変える手段は集計・可視化であったり、予測や最適化などの技術が該当します。おそらく一般的なデータサイエンティストの仕事と聞いて思い浮かぶのはこちらの仕事ではないでしょうか。
イメージを持っていただくために、予測や最適化の技術を使う典型的な例を3つほど挙げます。
取り扱うデータは、従来は表形式の構造になっているデータ(たとえばcsv形式のデータなど)が大部分だったのですが、深層学習の技術の発展によって画像・自然言語・音声など、いわゆる非構造化データと呼ばれるデータを取り扱うことが増えてきました。
また、データからの価値の引き出し方も従来に比べて多様化しており、ChatGPTに代表されるように、自然言語や画像それ自体を生成することも大きな価値になってきています。
PoCでデータから目的に沿った価値を生めることが確認できたら、その後は「価値を持続的に生み出す仕組み」を検討・構築することが多く、これもデータサイエンティストの仕事の範疇に入ってきます(後にも述べますが、データサイエンティストのみでシステム開発を完結させるわけではなく、機械学習エンジニアなど別の職種の方と協力しながら仕事を進めることが多いです)。
たとえば、作った予測モデルをGCPやAWSなどのクラウド環境上で動作させるシステムを作る、などがよくある事例です。弊社ブレインパッドのご支援を例に挙げて紹介しますと、画像から不良品を検知するモデルを実際の工場で稼働させるシステムを実装した事例であったり、LPガスの需要予測をもとにした配送最適化の計算をアプリの形で実装する、などの事例が存在します。
【参考】
AIが高める“食の安全・安心”
社会インフラ課題をデータ活用で解決する、ソフトバンクの新サービス・「Routify」開発秘話
この仕事は弊社のような「他社のデータ利活用を支援する」企業ならではの仕事かもしれません。特定のデータから価値を出すというより、その背後にある「データ分析の戦略/組織/人材/データ基盤をどう設計/運用すればよいか」という問いに対する答えを一緒に検討・構築する仕事です(後にも述べますが、この仕事もデータサイエンティストのみで完結させるわけではなく、コンサルタントなど別の職種の方と協力しながら仕事を進めることが多いです)。
具体的な例としては、既存のデータをどう活用すればビジネスに寄与できるのかを一緒に考えたり、データ分析を行う組織にどのようなスキルの人材がどの程度必要か、そのためにどのように教育を行うべきかの検討であったり、データを管理・運用する際の課題の発見やそれを踏まえた基盤構築や運用改善方法の提案を行ったり、などの仕事があります。
【関連記事】
ワークショップで明確にする、DXのグランドデザイン
DX時代に不可欠な、データ活用人材を育成するコツとは
また、検討段階から関与するのではなく、既にある程度設計された組織に対して必要な専門性を加える形で支援をする、という仕事も増えています。
たとえば、新しく立ち上げたデータ分析組織に一緒に参画して、分析業務をはじめとする様々な仕事に伴走する、といった仕事です。この場合の多くは、顧客の分析組織のメンバーの一員という立ち位置で一緒に分析業務をしながら、専門的な知見をもとに、より目的に沿ったアプローチ/進め方の提案・実践や、組織/仕組みまで踏み込んだ改善案の提案・実践などを行っていきます。
【関連記事】
金融DXで先行するりそなホールディングス データサイエンスの専門家と共にデジタル変革の自走化を目指す
ニトリのデータ活用内製化の取り組み ~「2032年・3,000店・売上高3兆円」への礎を築くプロジェクトを振り返る~
筆者がブレインパッドに入社した時期(2015年前後)は、表形式データの集計・予測モデル構築などといった、いわゆるPoCに分類されるような仕事が多かったと記憶しています。
しかし今は「機械学習モデルをシステムに組み込んで業務に活かしたい」であったり「データ分析を主なミッションとする組織を立ち上げる際の組織構築や人材育成における要諦を教えてほしい」という仕事が増えている印象を受けています。とはいえ、PoCの仕事が減り続けているわけではなく、さきほど説明した画像・自然言語などの非構造化データから価値を引き出す、といった仕事に関しては増えている印象を持っています。
では、なぜこのような変化が見られるのでしょうか?
1つの仮説ですが、「データを活用しようと考え、実際に取り組んでみた企業が少しずつではあるが増えてきている」ことが大きな理由ではないかと考えています。その結果「取り組んでみたから気づいたこと」が生まれ、それがそのまま課題となるケースが多くなっていると思います。
【データ活用に取り組んだ企業から出てくる課題の例】
このような背景から、PoCだけではなく「その次・その先」を見据えた課題に基づく仕事が増えてきているのだと思います。
ここまで「データサイエンティストが関わる仕事にはどのようなものがあるのか」を最近の傾向も含めて解説しました。ここからは「それぞれの仕事をどのように進めているのか」を解説します。
繰り返しにはなりますが、仕事の進め方は組織によって大きく異なるので、以降は弊社の典型的な仕事の進め方をもとに解説します。
さきほど説明したPoCに該当するお仕事です。これはデータサイエンティストだけで完結することが比較的多い印象です。典型的な仕事の進め方は以下のような流れになります。
上記の仕事をする時の体制および期間は、問題の抽象度・技術的な難易度・データの量/質などの要因によって変化します。
典型的なチーム体制はデータサイエンティスト2-3人程度で、アプローチ・スケジュールの策定および管理や報告・議論を主に実施する役割と、実際にデータを加工/分析する役割に分かれることが多いです。また、期間は概ね1-2ヶ月程度で実施することが多いです。
この仕事の流れの中で強調してお伝えしたいのは、「確認」「報告」といった「コミュニケーション」を含む工程が多くの場面で必要になっていることです。分析アプローチ設計のために論文を読んでリサーチしたり、実際にコードを書いて分析する作業もデータサイエンティストの重要な仕事の一部ですが、目的/アプローチ/分析結果/次のアクション などを依頼者とコミュニケーションを取りながらしっかり確認することも、分析作業と同じかそれ以上に重要な仕事です。
作った機械学習モデル等を業務で利用可能な形にする仕事は、その仕事の性質上通常のシステム開発に則った進め方になることが多いです。この場合「データサイエンティスト」だけで仕事が完結することは少なく、機械学習エンジニアなどの職種の方と協力しながら仕事を行います。
具体的な仕事の流れは、開発するシステムなどによっても変わってきますが、以下のような流れになることが多いです。
弊社の場合、システム開発に関わる工程は、エンジニア職(機械学習エンジニアやデータエンジニアなど)の方が連携・担当するケースが比較的多いです。一方でデータサイエンティストは「機械学習」や「最適化」などの専門性が必要な領域における要件の確認や、場合によっては設計や実装のフォローを行う、という役割で仕事を進める場合が多い印象です。
【関連記事】
DXプロジェクトの核、機械学習プロセスを成功させるためのチーム編成とは
機械学習プロジェクトの実地検証&開発フェーズを推進するポイント
数理最適化とは?機械学習・AIとの違いやビジネス活用事例をわかりやすく解説
最後に、戦略/組織/データ基盤を検討・構築するご依頼をいただいた場合についてです。この場合、弊社では「コンサルタント」と「データサイエンティスト」で協働することが多いです。以下は、例として「データをどう活用していけばいいのかを、一緒に考えて欲しい」と依頼された場合の仕事の進め方の例です。
上記の流れに沿って動く中で、データサイエンティストは「データの利活用方法」やその「実現の可能性」をコンサルタントと一緒に考えたり、現状のデータを確認してデータ量・質や運用方法に関する課題の確認を担う傾向にあります。
この場合、データサイエンティストは特定のデータについて分析を行って価値を出すというわけではなく、様々な組織やデータで支援してきた経験を活かして顧客企業のデータ活用に関するあるべき姿を一緒に考え、提案することが価値となります。
【関連記事】
「アナリティクスファーム」が支援する、BtoCビジネス企業のデータドリブン推進
企業のDXを推進する「DXコンサル」とは?コンサルティングの役割やメリット、実際の事例をご紹介
データサイエンティストの仕事として一般的に強調されやすい「データを用意してコードを書いて、集計・可視化したり予測モデルを作ったりする」という側面はデータサイエンティストの仕事のほんの一部分だけに光を当てた姿であることがわかると思います。
「データから価値を出す」仕事に求められることは最近ではより多岐にわたっており、その要求に応じていくために、データサイエンティストは上記のような側面以外にも、様々な職種の方との協働や、高い思考力・コミュニケーション能力も求められることを知っていただけると嬉しいです。
ここまでは「現在」にフォーカスしてデータサイエンティストの役割や仕事を解説してきました。ここから先は「未来」に向けた解説を続けます。
データサイエンティストに求められる素養を一通り押さえた上で、データサイエンティストになる方法や、なった後に大きな活躍をするための心構えについて思いを巡らせていきましょう。
なお、この章でも「データ分析・活用を他社から受託して行う弊社(ブレインパッド)のデータサイエンティスト」を中心に解説を進めます。
【関連記事】
データサイエンティストの強みをどのようにビジネス価値につなげていくか~キーワードは「2つの実コウ性」~
さて、突然ですが読者の皆さまに質問です。「データサイエンティスト」という名詞から連想される人物像はどのようなものでしょうか。
ある人は「理系修士or博士出身の男性」を思い浮かべたかもしれません。あるいは、ある人は「明朗活発でコミュニケーションに長けた人」を無意識に除外したかもしれません。本節では、これらのイメージを少し壊していきます。
データサイエンティストに求められる素養については諸説ありますが、筆者の考えでは以下の5要素に集約されます。
集約した5要素について、データサイエンティストに求められる素養の再定義を試みます。順番に見ていきましょう。
「データサイエンティストが取り組むテーマ例」で見たように、データサイエンティストは狭義のデータ分析、機械学習、最適化などのデータ活用に関連するタスクにあらゆる道具を使います。これらの道具の一部は今や直感的な操作が可能な状態まで抽象化されており、中身まで理解しなくても使うこと自体はできてしまう場合が増えてきました。
それなら、データサイエンティストは中身を知らなくてもいいのでしょうか?もちろん答えはNoです。必ずしもすべてを知る必要はありませんが、道具の仕組みをある程度理解していなければ、おかしな結果が出ていてもそれに気付けないからです。分析や試行の結果の解釈を大きく誤るリスクを抱えることになるため、経営を揺るがす重大なミスジャッジにも繋がりかねません。
このような事態を避けるためにも、データサイエンティストにはデータ活用のスペシャリストとして、道具のベースになっている数学や統計学などの学問を一定以上の水準で修め、応用できる状態に達していることが求められます。これこそがデータサイエンティストの専門性の源泉であるといっても過言ではありません。
したがって、「理系学部レベル以上の数学や統計学の知識と応用力、あるいはこれらの獲得のためのポテンシャルと意欲」がデータサイエンティストにまず求められる素養ということになります。
2023年11月現在、データサイエンスと隣接分野は最も研究が盛んな領域の一つです。技術的なブレイクスルーを目の当たりにすることも珍しくなく、イノベーションが日夜起こっている状況といえます。このような「変化が加速する時代」ですから、最前線のデータサイエンティストでも気を抜けばすぐに置いていかれてしまいます。付加価値を生み出せるデータサイエンティストであり続けるなら、加速する変化に追随すべく自己研鑽を継続しなければなりません。
たとえば、2023年11月現在であれば、データサイエンティストはChatGPTなどのベースになっているLLM (大規模言語モデル) の話題にある程度ついていけるのが望ましいです。
【関連記事】
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
データサイエンティストに対する「変化が加速する時代」への追随の要請は、後ほど紹介する『データサイエンティスト スキルチェックリストver.5』で生成AI (LLMも含まれる) に関連する項目が強化される等の形でも表れています。
【関連記事】
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
また、データサイエンティストが使うツールや環境もどんどん変化しています。たとえば、Python言語は今や主要な言語の一つですし、GCP・AWS・Azureなどのクラウドコンピューティングの活用を前提としたエンジニアリングスキルの需要も高まっています。
したがって、「変わりゆく外部環境を受け入れて自己研鑽を継続していく心構え」がデータサイエンティストに求められる素養ということになります。これに加えて「利用経験のない技術やツールを敬遠せずに試す習慣」があれば尚良しです。
「データサイエンティストの仕事」で見たように、データサイエンティストの仕事は以下の3つでした。
これらに共通しているのは「付加価値の創出が最終到達点であること」であり、「社会実装、あるいはそれに近い位置での貢献を前提としていること」です。前者は大学などの研究機関にも共通していえることですが、後者は違います。遠い未来への貢献を目指す基礎研究とは異なり、データサイエンティストのミッションは「データ活用に関連する仮説や理論を踏まえて、それを社会に適用していくこと」です。まさに社会実装の請負人なのです。
したがって、「ビジネスの場における価値創出への直接的な貢献がミッションであると理解し、それを目指していけること」がデータサイエンティストに求められる素養ということになります。データサイエンティストはデータ活用のスペシャリストであるだけでなく、ビジネスパーソンでもあることが求められるのです。※
【参考情報】
令和元年版科学技術白書 第1章 新たな知を発見する基礎研究
※:研究機関等の例外を除く
また、データサイエンティストの主戦場であるビジネスの前線では、データサイエンティストが孤軍奮闘するわけではありません。一般的には、データ活用の対象となるビジネスの関係者と一緒にデータ活用に取り組んでいくことになります。
ここでいう関係者は、経営者や管理者に加え、現場メンバー、エンドユーザーなど様々です。データサイエンティストはビジネスをドライブするために、このような様々な相手と同じ目線で対話し、必要な情報を引き出し、時には専門家として説得・誘導しなければなりません。したがって、「どのような相手でも臆せずにコミュニケーションが取れること」もデータサイエンティストに求められる素養ということになります。
次はデータサイエンティストの仕事の特徴について、少し違った切り口で考察していきます。
データサイエンティストの仕事には、豊富な専門知識が要求されます。この事実から専門知識の獲得そのものに難しさがあるように感じてしまいますが (もちろんその側面はあります)、いち現役データサイエンティストとしての見解は少し異なります。専門知識を個別の具体例に対して「応用」していくところに難しさがあるのです。ここでいう「応用」をブレイクダウンすると以下のようになります。
▼データサイエンスに関する専門知識の「応用」
社会実装を目指す多くのプロジェクトでは、概ね上記 (あるいは一部) に取り組む必要がありますが、これらはどれも抽象度が高く、定型的な作業のみでタスクを完結させることはほぼ不可能です。※
また、単に上記をこなせばいいのではなく、極力シンプルで持続可能な状態への昇華を目指すことも同時に求められます。したがって、ただ専門知識を持っているだけでは太刀打ちできず、専門知識を使いこなすための「思考力と応用力を備えていること」が重要なのです。
※:部分的に可能であることは事実
データサイエンティストの仕事は、データ活用という共通点こそあるものの、基本的にはユニークです。同じ技術を使う場合でも課題が違えば異なる取り組みになりますし、課題が似ていてもアプローチによって異なる取り組みになりえます。変化の速い分野ですから、「課題と手段 (技術など) を掛け合わせると世界初」ということも珍しくありません。
したがって、前例のない取り組みや未知の事象との遭遇は日常茶飯事であり、データサイエンティストはそれを前提に責任を持って職務を遂行しなければなりません。「前例にとらわれず、自ら考え解決策を導き出す力」「必要な対策を事前に施すためにあらゆる状況を想像する力」そして、「想定外の困難を打破する胆力とラストマンシップ」がデータサイエンティストに求められる素養ということになります。
最後に考慮すべき要素は、データをリスペクトし情熱を注げるかです。なぜそう言えるのかを見ていきましょう。
残念ながら、世の中の多くのデータは高度な活用を想定したものではなく、多くの不備を含んだ低品質なものです。また、データ活用に必要なメタ情報 (データを説明する情報) の重要性も正しく理解されている状況とはいえません。実際に「データはあるにはあるが、活用までが遠い」といった事例は枚挙にいとまがありません。データサイエンスという必殺技には発動条件があるのです。
したがって、多くの場合にデータ活用の前段で地道なデータ・メタ情報の整備をすることになります。根気の要る作業すらも楽しくこなせるぐらい「データと向き合う時間を苦にせず、情熱を持ち続けられること」が重要です。
データが大きな可能性を秘めていることは、DXが叫ばれる昨今において周知の事実です。ところで、データサイエンティストがデータ活用に取り組むことは一体何を意味するでしょうか。
多くの場合、データサイエンティストにはデータ活用に関する専門的な知見があり、その他の人 (しばしば分析結果の報告先や決裁者) にはそれがありません。したがって、両者の間には得られる情報の非対称性が生じ、データサイエンティスト側が圧倒的な強者となってしまいます。
想像してみてください、データサイエンティストが専門的な知見を駆使して分析・解釈した結果に対して、関係者は反論する術を持たないのです。この非対称性を悪用すれば、意思決定を恣意的に操作することさえもできてしまいますし、そのようなことをすれば、社会全体で見たときに厚生損失が生じることになります。
だからこそ、データサイエンティストにはデータをリスペクトしていることが求められます。たとえ得られた結果が不都合でも、「データが語る事実を曲げずに結果を受け入れ、誠実に対応する態度」を、データ”サイエンティスト”は備えていなければなりません。
以上より、データサイエンティストに求められる素養は下表の内容を兼ね備えていることであると再定義できます。
考慮すべき要素 | 求められる素養 |
基本の道具を 使いこなせるか | ・理系学部レベル以上の数学や統計学の知識と応用力、あるいはこれらの獲得のためのポテンシャルと意欲 |
外部環境の変化に 追随できるか | ・変わりゆく外部環境を受け入れて自己研鑽を継続していく心構え ・利用経験のない技術やツールを敬遠せずに試す習慣 |
ビジネスの場での 価値創出を目指せるか | ・ビジネスの場における価値創出への直接的な貢献がミッションであると理解し、それを目指していけること ・どのような相手でも臆せずにコミュニケーションが取れること |
自身の力で考え抜く ことができるか | ・思考力と応用力を備えていること ・前例にとらわれず、自ら考え解決策を導き出す力 ・必要な対策を事前に施すためにあらゆる状況を想像する力 ・想定外の困難を打破する胆力とラストマンシップ |
データをリスペクトし 情熱を注げるか | ・データと向き合う時間を苦にせず、情熱を持ち続けられること ・データが語る事実を曲げずに結果を受け入れ、誠実に対応する態度 |
今回ここで再定義した素養を兼ね備えていると思える方は、データサイエンティストとして大成する可能性が大いにあると筆者は考えます。「理系修士or博士出身の男性」などのイメージは2023年11月現在のデータサイエンティストの傾向を言い当ててはいるものの、決して本質ではないのです。ぜひ、自身の適性を見極める際のヒントにしてみてください。
【関連記事】
常駐型プロジェクトでデータサイエンティストが成果を出すための共通認識
現場が求めるデータサイエンティストになるためのポイントとは?
本節では新卒と中途に分けて、データサイエンティストとして採用される人物像の解像度を上げていきます。
データ活用のニーズの高まりを受けて、ジョブ型雇用を取り入れる企業ではデータサイエンティスト職の採用枠が拡大しています。一方で、それ以上にデータサイエンティスト職の人気は過熱しており、採用のハードルは年々上がっています。 (本記事ではリップサービスをいたしません!)
このような状況ですから、前項で述べた「データサイエンティストに求められる素養」は必須要件で、さらにプラスαがなければ内定に至らないのが実情です。
たとえば、5つの要素の1つである「基本の道具を使いこなせるか」であれば、以下のいずれかを満たす必要があります。
つまり、2のハードルがやや高いことを考慮すると、基本的には「研究に真剣に取り組んできた学生」が主な採用対象のイメージであり、そうでなければディスアドバンテージをひっくり返す何かが求められるということになります。やはり1を自動的に満たせる方がデータサイエンティストを志すのが王道で、そうでない場合は上記からの逆算で戦略を練る必要が生じます。
実際に、弊社に新卒のデータサイエンティスト職として入社する社員も大半が上記の1に該当しており、理系分野や経済系分野などの研究を経てキャリアをスタートしています。
【関連記事】
『新卒データサイエンティスト1年目の過ごし方 ーアンケート結果から見える入社後の働き方ー』新卒データサイエンティストってどんな人たち?
ただし、あくまでも上記は2023年11月時点の傾向であり、属性は本質ではありません。「データサイエンティストに求められる素養」を兼ね備えていれば、多様なバックグラウンドを持つ人材に対して門戸は開かれています。
別の職種からデータサイエンティスト職へのキャリアチェンジを試みる場合、即戦力として活躍できることが求められます。試しに弊社のデータサイエンティスト募集要項を見てみましょう。
=========
募集ポジション:リードデータサイエンティスト
■必須スキル
・統計分析、最適化や時系列予測などの数理モデリング、機械学習などの理論面の理解と分析に基づいた課題解決や意思決定支援業務の経験
・小~中規模プロジェクトのリード、マネジメント経験
■歓迎スキル
・データ分析に基づくプロジェクトベースの業務経験
(課題の整理から発見、解決方法の考案、実装、プロジェクト内での折衝、報告、アクションへの落とし込みまで)
・BtoBでのクライアントワーク経験者
※株式会社ブレインパッド の求人一覧 – データサイエンティストより引用
=========
上記は弊社1社の募集内容のためサンプルサイズが非常に小さいですが、データサイエンティスト職の人材市場の傾向を概ね代表しているように思います。紐解いていきましょう。
まず、ジュニアクラスの募集枠が存在しません。代表的な理由として以下が挙げられます。
そのため必然的に中途採用のハードルは高くなり、即戦力が求められることになります。ここでのテーマはキャリアチェンジなのに、即戦力として活躍することなど果たして可能なのでしょうか。場合分けして見ていきます。
隣接する職種からのキャリアチェンジは現実的です。この場合の発想はシンプルで、足りない部分を補えばいいのです。たとえばSI企業でシステム開発プロジェクトをリードした経験があるなら、自学自習でデータサイエンスを学べば即戦力として活躍できる可能性が見えてきます。(もちろん初めは苦労するかもしれません) 昨今は良質な教材が豊富にありますから、学ぶチャンスを見つけるハードルは決して高くありません。この場合、キャリアチェンジの成否を分ける最も重要な要素の一つは独学力でしょう。
また、このパターンのキャリアチェンジ組は純粋培養データサイエンティストが獲得しづらい強みを持っていることが多々あります。データサイエンティストの仕事はデータ活用の総合格闘技ですから、後述するデータサイエンス力のみでは行き詰まってしまう場面において、むしろ大きな活躍ができるかもしれません。たとえばコンサルタント (戦士) がデータサイエンティスト (魔法使い) にキャリアチェンジすれば、ビジネスの強みとデータ分析スキルを併せ持つ魔法戦士として大活躍する可能性があるということです。
以下の記事は、まさにそれを体現している事例です。 (ex-SIer→データサイエンティスト)
【関連記事】
【シリーズ】リスキリング×データサイエンティスト CASE2:中道亮介 | DOORS DX
リスキリング(学び直し)とは?意味・事例や導入メリットを解説
異なる職種からのキャリアチェンジも、条件は付くものの非現実的ではありません。たとえばキャリアチェンジ前のポジションが全く異なる業種だったとしても、学生時代にデータサイエンスや周辺分野の研究経験があれば、リスキリングを前提に可能性を見出していくことができます。
また、昨今はあらゆる業界でデータ活用が盛んに行われています。データサイエンティスト以外の職種でもデータ活用に携わる機会が得られるケースは増えており、そのような場合もリスキリング次第で可能性を見出していくことができるはずです。
上記に加え、異なる職種ならではのユニークな強みがあれば尚良しです。データサイエンティストといえども対峙するのはビジネスですから、たとえば特定の業界におけるドメイン知識が豊富であれば、その業界のデータ活用の仕事では多大な貢献が期待できるでしょう。
以下の記事は、まさにそれを体現している事例です。(学生時代に機械学習の研究→ex-公認会計士 (データ活用にも携わる) →弊社データサイエンティスト)
【関連記事】
【シリーズ】リスキリング×データサイエンティスト CASE1:中山英樹
上記2つのいずれにも当てはまらない場合、少々アクロバティックな方法でアピール材料と説得力を確保する必要があるかもしれません。
たとえば、機械学習をはじめとするデータに関連したコンペティションを提供するプラットフォーム「Kaggle」で上位の称号を獲得するか、AtCoderなどの競技プログラミングのコンテストで好成績を収めた上で、求められる素養を兼ね備えていることを説得力をもって示せれば、可能性が開けてくるかもしれません。いずれにしても”データサイエンティスト”を目指すのであればハードルは高く、不可能ではないもののそれなりの覚悟は必要です。
データサイエンティストとして採用されるためのポイントは前述の通りですが、本当に重要なのは「採用された後」です。駆け出しデータサイエンティストが大きな活躍をするために押さえておくべきポイントは、以下3つであると筆者は考えます。順に解説していきます。
データサイエンティストとして活躍するなら、自走力の獲得は必要不可欠です。なぜなら、自走できず細かな指示を必要とする状態では多大な管理コストがかかってしまいますし、与えられたタスクの範囲内の貢献しかできずレバレッジが効かないからです。また、自走力はリーダーを担う上での必須スキルという側面もあるため、自走できなければジュニアクラスから抜け出すことができません。(リーダーとしてチームを率いるスキルは自走力の上位互換です) 実際、弊社でも活躍しているデータサイエンティストは「自走できる人」です。
誤解のないように補足すると、「自走できる」とは、単に自発的に行動することではありません。自身を起点に行動を開始し、状況に応じて軌道修正を図りつつ、品質の良いアウトプットまで推進できる状態を「自走できる」と表現しています。そして、自走できる範囲が広くなればなるほど任せられる仕事が広範囲・抽象的になり、より大きな活躍が期待されるようになります。まずは「次期リーダーを担えますか?」という質問に対して、いつでもYesと言えるように自信をつけていくといいでしょう。
データサイエンティストが自己研鑽を継続すべき職種であることは「データサイエンティストに求められる素養」の解説で触れた通りですが、磨くべきスキルは狭義のデータサイエンスだけではありません。一般社団法人データサイエンティスト協会が提唱するように、「データサイエンス力」に加えて「ビジネス力」「データエンジニアリング力」も磨いていく必要があります。
参考:データサイエンティスト協会「2019年度スキル定義委員会活動報告」
このスキルを磨くことが重要なのは言うまでもありません。現場で経験を積みつつ、それ以外の場でもインプットを継続していく必要があります。インプットした内容を分析に適用してみたり、分析に必要な知識をインプットして分析の手札を増やす、といった形でインプットとアウトプットの間を行き来して、螺旋状にスキルを練り上げていくと良いでしょう。
また、新たな技術を率先して学び、使いこなせるようになることも重要です。たとえば弊社では、LLMなどの生成AIの研究プロジェクトを立ち上げ、変わりゆく時代に合った形でケイパビリティの強化を図っています。
【関連記事】
LLM/Generative AIに関する研究プロジェクトを立ち上げます
LLM研究プロジェクト ブログ記事一覧
データサイエンティストといえども、活躍のフィールドはビジネスですから、ビジネス力に該当するスキルも磨かなければなりません。ロジカルシンキングなどのOSを頭にインストールするのはもちろんのこと、抽象的な課題を紐解き価値あるデータ活用の形に落とし込んでいくスキルも磨いていく必要があります。後者は、弊社がデータ人材に必要な3つの力の1つとして定義している「ビジネス課題を見つける力」が参考になります。
【関連記事】
間違いだらけのデータ⼈材育成術
ほかにも、プロジェクトマネージャーとしてプロジェクトを管理・推進するスキルや、現場を巻き込む力など、ビジネスのフィールドでの大活躍を目指すデータサイエンティストが獲得すべきスキルは多岐にわたります。
【関連記事】
【座談会】データサイエンティストたちが考えるDX – 前編~求められるのは「データの整理」と「現場を巻き込む力」~
データサイエンティストは様々な形で大量のデータを扱うため、データをスマートに扱うノウハウや、それを見越した仕組みの設計・開発などのエンジニアリングスキルを高めていくことも必要です。データを扱うための環境や道具、方法論はどんどん進化していますから、手に馴染んだレガシーに満足せず、自身のベストプラクティスを更新していく必要があります。
また、「価値を持続的に生むためのシステムを検討・構築する仕事」もデータサイエンティストの重要な仕事の一つです。職種柄システムの構築に直接関わることばかりではありませんが、昨今はデータ”活用”がいよいよ本格化していることから、「後続のフェーズでシステムに載せることを見越してプロジェクトを進める」といったことを求められる機会が非常に多くなりました。したがって、一般的なシステム開発の場で求められるエンジニアリングスキルのニーズも日に日に高まっています。データエンジニアリング力を磨けば、活躍の場が大いに広がるはずです。
3つの力についてさらに詳しく知りたい方は、2023年度版「データサイエンティスト スキルチェックリストver.5」を参照してください。
参考:2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表
本章の前半で取り上げた5要素ですが、経験を積んで解像度が上がれば上がるほどデータサイエンティストとして成熟し、その重要性に気づくことができると筆者は考えています。要所要所で立ち返って内省し、実戦に活かしていけば大きな活躍に繋がるかもしれません。
この章では、データサイエンティストに未来はあるか?について考察を加えます。
まず、データ活用を取り巻く外部環境はどのように変化していくでしょうか。前述したように、データサイエンスと隣接分野は、2023年11月現在において最も研究が盛んな領域といっても過言ではありません。LLMを中心とした生成AIの進化には目を見張るものがありますし、最先端の技術がツールに搭載されて一般人にまで浸透した事例も存在します。もちろんChatGPTもその一つですし、最適化の技術を実用化した事例も堅調に増えています。
少し抽象度を上げると、「技術革新」と「技術の民主化」が進んでいる状況であるとみることができます。同様の変化が維持、あるいは加速する可能性は十分にあり、それが現実になれば「データサイエンティストの需要が過熱している状況」にもいずれ変化があるかもしれません。
様々なシナリオが考えられますが、もし現在のデータサイエンティストの仕事の多くが抽象化されたGUIベースのツールで代替できるようになるのであれば、それでも残存する理論的・技術的に高難度の仕事を「一部の狭義データサイエンティスト」が引き受け、それ以外の仕事をよりビジネスに軸足を置く「シチズンデータサイエンティスト」が引き受ける、といった形で二極化する未来もあり得ます。ある意味、データサイエンティストとしての資質が厳しく問われる時代が到来するのかもしれません。
とはいっても、データ活用がより重要視される (あるいはデータ活用が当たり前な) 未来に向かっていくこと自体はおそらく既定路線です。2023年現在の在り方とは異なるかもしれませんが、変化を受け入れ、自身の在り方をも変化させることを厭わないのであれば「データサイエンティストに未来はあるか?」の答えはYesではないでしょうか。
【関連記事】
【DX事例】データサイエンティスト協会に聞く、「データサイエンスの社会実装」のこれまでとこれから~DOORS -BrainPad DX Conference- 2023 テーマ別 企業DX対談~
大きく変わりゆく時代の中で、データサイエンティストは自らのキャリアをどのように捉え、考えていけばよいでしょうか。
まず、世の中が大きく変化しうることと、それに伴いデータ活用のスペシャリストに求められる役割も大きく変化しうることを理解し受け入れる必要があります。受け入れれば、少なくとも「今の正解が10年後の正解ではない」ということが理解できます。データサイエンティストのキャリアは、今現在見えているゴールからの逆算だけでは見通せないのです。
だからこそ、少なくとも技術やツールの進化、それに伴う社会の変化を常に注視してキャリア構築の方針をアップデートしていく必要がありますし、変化に合わせて誰かしらが新たなキャリアの在り方を切り開いていかなければなりません。その結果、データサイエンティストの在り方は社会によりフィットする形に派生・多様化し、職種の名称すら変わっている可能性もあります。データサイエンティストの次代のロールモデルは令和のデータサイエンティストが創るのです。
よく考えると、これは変わったことなどではありません。たった十数年前、データサイエンティストという職種は存在しませんでした。先人たちは無からデータサイエンティストというものを作り上げてきたわけです。自分達で考えて次代のキャリアを切り開いていくというのは、変化の速いデータサイエンスの業界に身を置く者の宿命なのかもしれません。
最後に、データ活用のあるべき姿を提示し、現状とのギャップを明らかにします。
データ活用、あるいはDXが叫ばれて久しい昨今ですが、まだまだ当たり前にデータが活用される社会になったとはいえません。多くの組織が苦戦し、あるいは二の足を踏んでいる状況であることは「最近のデータ分析に関わる仕事の潮流」で触れた通りです。思い通りにデータ活用を進められている組織はごく僅かというのが現実なのです。
▼データ活用に取り組んだ企業から出てくる課題の例
また、日本の組織はコスト削減や業務効率化などの「守り」を中心にIT投資を行い、新たな価値を創出する攻めの投資には消極的な傾向があります。
【関連記事】
DXを実現する「攻めのIT」とは?「守りのIT」と根本的に異なる2つのIT投資の視点
国際競争力を高めていくためには、上記の状況を打破し、守りだけではなく攻守の両面で、当たり前にデータを活用する文化を醸成していかなければなりません。これこそがデータ活用のあるべき姿ではないでしょうか。
【関連記事】
DXピラミッド – 一般から最先端、そして未来まで。 わかりにくいDXを、3分で理解する。
あるべき姿に向かうためには
といった形で地に足をつけて取り組んでいく必要があります。そして、その役割を引き受けることが「データサイエンティストとは」の1つの解ではないでしょうか。
【関連記事】
息を吸うようにデータが活用される社会をつくるには~Data-driven as Usual~
経営にデータサイエンスをどのように取り入れるか~DX推進の成否を分ける5つのトピック~
【座談会】DX人材育成のプロが語る~組織にデータサイエンスを根付かせるためには~
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説