メルマガ登録
「個人の活躍のため、金融機関のデータ活用スタンダードを策定し、金融業界の魅力を発信する」ことを目的に、金融機関を中心に関連組織を集めて結成された一般社団法人 金融データ活用推進協会(FDUA)。
そのFDUAが、金融データを活用するデータ分析コンペの第1回を開催しました。プレインパッドからはアナリティクス本部アナリティクスサービス部の中山英樹が参加し、入賞を果たしています。
中山にコンペの内容や入賞の感想、そして金融業界におけるデータ有効活用について語ってもらいました。
DOORS編集部(以下、DOORS) 今回はFDUA主催のデータ分析コンペ「第1回 金融データ活用チャレンジ」の精度部門で3位入賞という好成績を収められました。おめでとうございます。
まずは簡単に自己紹介をお願いします。
株式会社ブレインパッド・中山英樹(以下、中山) ブレインパッドに入社して7年目になります。データサイエンティストとして、データを活用したい企業から受託した仕事を通じて、企業価値を高めるための貢献ができるように努めています。
DOORS ブレインパッドは執行役員の神野が標準化委員会の委員長代行に就任するなどFDUAとの関係強化を図っています。今回、中山さんがコンペに参加したのは、会社側からの要請があってのことだったのでしょうか。
中山 それとは全然関係なく、データ分析コンペには腕試しとして、時間を作って参加するようにしています。今回のコンペの運営はSIGNATE(2018年4月にオープンしたAI開発コンペティションサイト)が担当しましたが、同社が運営するデータ分析コンペにも数多く参加してきました。そのSIGNATEから送られてきたメールでこのコンペのことを知ったのです。
DOORS SIGNATEからのメールを見て、参加を決めた動機は何だったのでしょうか。
中山 1つは、前職で公認会計士をしていたので、会計や金融に関するデータ活用に興味や強みを持っていたことです。もう1つは、最近シリコンバレーで勢いがあるDatabricks社のデータ分析基盤が使えることでした。私は業務で使ったことがなかったので、使い勝手を知りたかったのです。
DOORS なるほど。ブレインパッドとFDUAの関係強化といったビジネス的な目的ではなく、中山さんが技術者として、純粋に腕試しをしたくて参加したということですね。
中山 そうです。
DOORS 今回のコンペのテーマを教えてください。
中山 銀行の個人向け業務の1つに住宅ローンの貸し出しがあります。債務者の中には払えなくなる人も出てきますが、それが突然だと契約にしたがって残額を一括回収するなど、債務者にとっては致命的な対応を取らざるを得なくなります。しかし数カ月前に予測できるのであれば、期日を延ばして1回の支払金額を減らすなど、もっと穏やかな対応が可能になり、借りた側も銀行もWin-Winの落とし所を探すことができます。そのために延滞の事前予測をしたいというのがテーマでした。
DOORS その分析のために、どのようなデータが提供されたのでしょうか。
中山 人工データではありますが、実データの性質を再現したかなりリアルなデータでした。債務者ごと・年月単位で1レコードで、内容は返済額、ローン残高、返済口座での入出金額などです。それが4年分、約10万件あったと記憶しています。延滞が生じた場合はフラグが立って、その後の債務者のレコードはなくなります。
DOORS そのまま分析に使えるようなクリーンなデータでしたか。
中山 クリーンなデータでした。コンペによってはクレンジングや加工が必要なデータの場合もあるのですが、今回は初心者クラスからも広く参加を募る意図があったためでしょう。
DOORS 時間的な制約について教えてください。
中山 1カ月半の期日があり、それまでに結果を出すことが求められました。
DOORS その間はやろうと思えば24時間分析できたのでしょうか。
中山 提供されたDatabricks社の分析基盤は、参加者であれば誰でも24時間使用可能でした。コンペによっては自前で用意した環境で分析することもあるのですが、コンピューターの処理能力で精度に差が出ます。今回は全員が同じ環境を使うことになっており、その意味では公平でした。
DOORS 今回の参加者は1,658名と聞いています。
中山 それは延べ人数ですね。グループでの参加が可能で、Databricks環境のアカウント数がちょうど1,000でしたので、1,000組での戦いだったと思います。
DOORS その中で精度0.95以上の参加者が180組以上も出たということで、とてもハイレベルな戦いだったと評価されています。精度の指標は何だったのでしょうか。
中山 よく使われる指標で、AUC(Area Under the ROC Curveの略で、ROC曲線(Receiver Operating Characteristics Curve、受信者操作特性曲線)と呼ばれるものです。AUCが0.9~1.0は非常に良い精度とされており、0.95というのはかなり高い精度と言っていいでしょう。
DOORS なぜ今回はこれほど高度な戦いとなったのでしょうか。金融業界に分析人材が育ってきていると捉えていいのでしょうか。
中山 あえて辛口の評価をさせていただくと、進んでいる業種と比べて金融業界のデータ分析は始まったばかりで、人材もまだまだ豊富とは言えません。
今回180組を超える高精度達成者が出たのは、参加人数が多かったためです。SIGNATEはこれまで数多くの分析コンクールを主催・運営してきましたが、同社が関わったコンペの中でも過去2番目の参加人数だったと聞いています。
このことは金融業界のデータ分析に対する意気込みの高さを物語っていると思います。メガバンクだけでなく地銀からも多数の参加があり、勢いを感じました。参加者もデータ分析組織のリーダークラスから現場担当者までと幅広く、本気の取り組みがされていると想像できます。動き始めたばかりと言いましたが、この調子であればキャッチアップも近いのではないでしょうか。
DOORS そのような多数の参加者の中で精度部門第3位という好成績でした。率直な感想を聞かせてください。
中山 参加するからには優勝を目指していたので、正直3位は悔しかったです。しかしながらそれが今の自分の実力であり、数値では僅差でもそこには運ではひっくり返せない大きな差があると思っています。まだまだ成長の余地があるということで、今後も実力向上のためにできる限り多くのコンペに参加していくつもりです。
ただFDUAとも関係の深いブレインパッドから参加して、何とか入賞できたことで面目は果たせたとホッとしてもいます。
DOORS コンペに参加することで身に付く実力とはどういうものでしょうか。
中山 データ分析の結果の良し悪しは、ほぼデータで決まってしまいます。もちろんどんなアルゴリズムを採用するかが腕の見せ所ではあるのですが、データの質を超える分析結果を出すことはできません。コンペに数多く参加していると、このぐらいのデータならばこのぐらいの精度までは持っていけるという予測が速く精緻にできるようになります。そうなるとお客様の現場でも、実際のデータを見れば、だいたい達成できそうな精度がパッとわかります。つまりお客様の期待値を調整するのに役立つ力が身に付くということです。
DOORS ちなみに今回の中山さんの成績であるAUC 0.99425というのはどれぐらいの精度なのでしょうか。
中山 難しい質問ですね(笑)。大雑把なイメージで言うと、たとえば延滞者が毎月2%出るとしたら、そのうちの8割は具体的にどの債務者か当てられるぐらいの精度でしょうか。ただ人工データだからこその精度で、現実のデータだとそこまでの精度は期待できません。
DOORS 今回のコンペに参加して良かったと思うことは何でしょうか。
中山 金融業界の様々な人たちと幅広く交流して、現場の声を聞けたことですね。私がベンダーのデータサイエンティストということで、困りごとを相談してくださる方がたくさんいました。
DOORS 具体的にはどのような困りごとがありましたか。
中山 たとえば「分析チームをどうやってマネジメントしたらいいのか」とか「データ分析組織を社内に根付かせるにはどうしたらいいのか」といった組織マネジメントや文化醸成に関するご相談が多かったと思います。また「データ分析の結果が上司に採用されない」、「分析結果を専門知識のない人に理解してもらうのが難しい」といった金融業界だけでなく、どの業界でもよくあることも言われました。
DOORS コンペに参加すると、人材交流の機会が増えるのでしょうか。
中山 いえ。このように人材交流が盛んなコンペはむしろ珍しいです。主催者のFDUAが人材交流にも力を入れているからだと思います。その意味でも良いコンペだと感じました。
DOORS 今回金融業界を中心とする分析コンペに参加して、様々な気づきがあったと思います。それをもとに金融業界に対して、このようにデータ活用したらどうかという提言はありますか。
中山 まず業務の効率化という点から提案すると、金融業は書類仕事が多いので、今流行りのChatGPTに採用されているGPT-4を活用して、文書の要約や要点の抽出といったタスクを自動化するのがよいと考えます。
これは手っ取り早く効果が得られる取り組みですが、金融機関の本業がお金を貸して、その利息で儲けることであるならば、貸出額の増加が直接本業の業績を向上する手段であり、そうなるような取り組みをすべきかと考えます。
DOORS それは与信の精度を高めて、与信限度額を増やすということですか。
中山 リテール業務ならそうですが、そのような取り組みはすでにどの銀行も行っています。私が言うのはホールセール(法人)事業です。AIを活用して、事業拡大が見込めそうな事業者をピックアップして、コンサルティングを行い、伸びそうな領域に関する設備投資を促して、そのための資金を貸し出すというビジネスモデルです。優良な貸出先への貸出金を増やすことは、最近世界的に話題になっている銀行への取り付け騒ぎへの耐性を増すことに繋がるとも考えられます。
またリテールに関しても、日本人の若い人を対象に与信限度額を増やす取り組みだけでは、少子化で先細りしていきます。外国人が預金口座を開設しやすくする取り組みのほうが将来性があると考えます。
DOORS なるほど。金融業界の攻めのデータ活用としては、金融業が持っている豊富で質の良いビジネスデータを活用して、コンサルティングを含めた情報産業にシフトしていくのがよいとよく言われます。それはそれで進めていくとして、従来の本業と言われる分野でもデータ活用の可能性があるということですね。
本日は貴重なお話をありがとうございました。改めておめでとうございます。
中山 ありがとうございます。
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説