メルマガ登録
ブレインパッドの入社一年目のデータサイエンティストが、KaggleのHMS – Harmful Brain Activity Classificationコンペに参加して、2,767チーム中44位(上位約1.6%)になり、銀メダル獲得と健闘しました。
本記事では今回のコンペの概要とアプローチ手法や技術視点の学びなどをご紹介します。
こんにちは。アナリティクスコンサルティングユニットの広瀬です。
ブレインパッドのデータサイエンティストは仕事以外でも様々な活動や取り組みをしている方が多く、自由に好きな勉強・技術キャッチアップ等に取り組んで社内へ知見を共有するかたもいらっしゃいます。
そんな中、私、広瀬はデータサイエンスのコンペティションであるKaggleに参加し、ありがたいことにメダル圏内に入ることができました。
この記事では、そこで得た学びの一部をご紹介いたします。
HMS – Harmful Brain Activity Classification というコンペに参加いたしました。
大まかな情報は以下に記します。
\(K(q|p)=\int q(x)\log\frac{q(x)}{p(x)}dx\)
2つの確率分布が似ているかを表す距離のような指標です。
性質:
\(K(q\|p)\geq 0\ (^\forall q,p)\)(必ず0以上になる)と\(K(q\|q)=0\ (^\forall q)\) (同一分布間の距離は0)が成り立ちます。しかし数学的には距離の公理を満たしません。
\(q, p\)を入れ替えても一般に同じ値にならず、三角不等式も満たしません。従って擬距離と呼ばれることがあります。
予測の文脈では一般に\(q\)にデータ生成分布を当てはめ、\(p\)に予測分布を当てはめて使います。数値が小さい方が精度を高いことを意味します。
余談ですが私は学士修士で統計学を専攻しており、この指標が理論的にどれくらいの値になるかを計算しておりました。この指標は私にとって馴染み深い指標でした。
【参考】HMS – Harmful Brain Activity Classification
200Hz x 50sec
のEEGデータ
0.5Hz x 10min
のSpectrogramデータ
それぞれのデータ期間の中央10秒間で発症していた症状の分類確率
[seizure, lpd, gpd, lrda, grda, other]
の6症状の分類があります。0:20~
0:30
とSpectrogramの中央 4:55~5:05
が符合します。この10秒間に兆候が見られた症状を分類します。[2,0,0,1,0,0]
という答えが格納されることになります。[0.6667,0,0,0.3333,0,0]
とする必要があります。必ずしも両方のデータ種類を使う必要はなく、EEGだけのデータを使っている上位解法もありました。
自身が行った工夫や解法について述べます。
コンペではDiscussionで情報共有が行われています。私が試した知見をいくつか解説します。
Kaggleでは慣例的にコンペ終了後に(特に上位勢を中心に)解法の共有が行われています。
当然といえばそうかもしれませんが、いわゆるトップランカー(上位勢)の方々も上の手法を使っている印象でした。
複数人のチームの多くは各々の持ち寄ったモデルをアンサンブルしており、ソロ参加者の中には一つの大きなモデルを作っている方がいらっしゃいました。
このコンペは実質画像コンペといっても過言ではなかったのですが、EEG波形をスペクトログラムに変換せずプロットしたものをそのまま画像として使ったり、他にもそれをスペクトログラムと並べて1枚の大きな画像として使ったりする方々がおり、「そういうやり方もあるのか」と学びがありました。
ご参考までに、自分が取り組んだ工夫や解法について述べたいと思います。
最終的にpublicLB(コンペ期間中に確認できる順位表)/privateLB(コンペ終了時に確認できる最終的な順位表、テストデータはpublicLBと異なる)ともに、最良だったのは9つの異なるモデルのアンサンブルの解法でした。
ブレインパッドでは、データ分析技術の自己研鑽としてSIGNATEやKaggleなどの外部コンペの参加が推奨されており、クラウドコンピューティングサービスの利用が可能です(クラウド利用費用も支給されます!私も今回のコンペで使わせていただきました)。
その他、社内では、過去に行われていたコンペのコードを読む輪読会や、実際にコンペに参加した人からの知見共有会なども開催されています。ご興味のある方、ぜひ採用へのご応募お待ちしています!
ブレインパッドでは新卒採用・中途採用共に一緒に働く仲間を募集しています。
ご興味のある方は、ぜひ採用サイトをご覧ください!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説