メルマガ登録
皆さん、こんにちは。マーケティングプラットフォーム本部で広告系製品の開発を担当している渥美です。
現在、弊社では、新たな分析処理基盤である「Apache Spark(アパッチ スパーク)」の導入を検討しており、その一環として以下の検証作業を行いましたので、今回、皆さんにご紹介したいと思います。
SparkおよびSpark Streaming (with Kafka) のパフォーマンス検証
SparkおよびSpark Streamingを使ったサンプルアプリケーション開発
今回は、これらの検証に関する記事の前に、Apache Sparkとはそもそも何なのか?というところを、まずは「基礎編」としてスライドで簡単に解説したいと思います。
1.Sparkとは
2.RDD
3.実行モデルとスケジューリング
4.その他の主要なSparkコンポーネント
5.まとめ
Sparkは、ここ数年多くの注目を集めており、今年2月に米国で行われた、データ産業に関する世界最大のイベント「Strata + Hadoop World」でも、Spark関連のトピックが多くあったと聞いています。(Sparkとは何ぞや?といったトピックよりは、実践的な内容が多かったようです。
また、Sparkは、MapRをはじめ、Hortonworks、ClouderaといったHadoopディストリビューションでもサポートされています。
Sparkの周辺には、Tachyonなどこれからが楽しみなプロダクトもあり、Spark自体の発展と周囲のエコシステムの充実に期待しています。
次回は、パフォーマンス検証についての記事をアップしますので、よろしくお願いします!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説