DOORS DX

ベストなDXへの入り口が
見つかるメディア

Apache Sparkの導入検証を行いました -基礎編-

公開日
2020.11.01
更新日
2024.02.26

皆さん、こんにちは。マーケティングプラットフォーム本部で広告系製品の開発を担当している渥美です。

現在、弊社では、新たな分析処理基盤である「Apache Spark(アパッチ スパーク)」の導入を検討しており、その一環として以下の検証作業を行いましたので、今回、皆さんにご紹介したいと思います。

SparkおよびSpark Streaming (with Kafka) のパフォーマンス検証
SparkおよびSpark Streamingを使ったサンプルアプリケーション開発

今回は、これらの検証に関する記事の前に、Apache Sparkとはそもそも何なのか?というところを、まずは「基礎編」としてスライドで簡単に解説したいと思います。

スライドの内容

1.Sparkとは
2.RDD
3.実行モデルとスケジューリング
4.その他の主要なSparkコンポーネント
5.まとめ

Sparkは、ここ数年多くの注目を集めており、今年2月に米国で行われた、データ産業に関する世界最大のイベント「Strata + Hadoop World」でも、Spark関連のトピックが多くあったと聞いています。(Sparkとは何ぞや?といったトピックよりは、実践的な内容が多かったようです。

また、Sparkは、MapRをはじめ、Hortonworks、ClouderaといったHadoopディストリビューションでもサポートされています。

Sparkの周辺には、Tachyonなどこれからが楽しみなプロダクトもあり、Spark自体の発展と周囲のエコシステムの充実に期待しています。

次回は、パフォーマンス検証についての記事をアップしますので、よろしくお願いします!


このページをシェアする

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine