メルマガ登録
皆さん、こんにちは。マーケティングプラットフォーム本部で広告系製品の開発を担当している、田崎と白井です。
今まで2回にわたり、新たな分散基盤である「Apache Spark(アパッチ スパーク)」に関して、概要や弊社で実施したパフォーマンス検証について説明させていただきました。
・第1回「Apache Sparkの導入検証を行いました -基礎編-」
・第2回「Apache Sparkの導入検証を行いました -パフォーマンス検証編-」
最終回である今回は、Spark Streamingを使ったサンプルアプリケーション開発とその検証について、皆さんにスライドでご紹介したいと思います。
今回行った検証では、「Apache Kafka(アパッチ カフカ)」経由でアクセスログを取得し、そのログを用いてユーザーがコンバージョンするかどうかを予測する、というアプリケーションを作成しました。
1.目的
2.アプリケーションのイメージ
3.特徴量作成
(1)特徴量の作成
(2)アクセスログについて
(3)アクセスログからの特徴量作成
4.モデル作成
(1)モデル構築手順
(2)学習モデルについて
(3)モデル実装
(4)MLibを利用したロジスティック回帰
5.モデル適用
(1)ストリーミング処理での特徴量作成
(2)ストリーミング処理でのモデル適用
(3)モデルの保存と読み込み
(4)結果
(5)まとめ
今回を含め3回にわたり、Apache Sparkの導入検証について説明させていただきました。システムパフォーマンスやアプリケーション作成の“はまりどころ”については、実際に触ってみないと気がつくのが難しいとは思いますが、本検証が、皆さんのApache Spark導入の際の参考になれば幸いです。
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説