Hadoopは、誰もが知っているように、ビッグデータのポスターの少年です。エレファンティネの割合のデータを処理できるソフトウェアフレームワークとして、HadoopはCIOの流行語リストのトップに躍り出ました。
ただし、メモリ内スタックの前例のない上昇により、ビッグデータエコシステムは分析の新しい代替手段になりました。 MapReduceの分析方法は、Hadoopフレームワークの内部と外部の両方で分析を可能にする新しいアプローチに置き換えられています。 Apache Sparkは、ビッグデータ分析の新しい顔です。
ビッグデータ愛好家は、ApacheSparkを世界で最もホットなビッグデータのデータコンピューティングエンジンとして認定しています。 MapReduceとJavaをその位置からすばやく排出しており、仕事の傾向はこの変化を反映しています。 TypeSafeの調査によると、現在、グローバルJava開発者の71%がSparkを評価または調査しており、35%がすでにSparkを使用し始めています。 Sparkの専門家は現在需要があり、その後数週間で、Spark関連の仕事の機会の数は屋根を通り抜けると予想されています。
では、Apache SparkがすべてのCIOのやることリストの一番上に表示されるのはどういうことですか?
Tableauでのデータブレンディングとは
ApacheSparkの興味深い機能のいくつかを次に示します。
- Hadoop統合 – Sparkは、HDFSに保存されているファイルを処理できます。
- Sparkのインタラクティブシェル – SparkはScalaで記述されており、独自のバージョンのScalaインタープリターがあります。
- SparkのAnalyticSuite – Sparkには、インタラクティブなクエリ分析、大規模なグラフ処理と分析、およびリアルタイム分析のためのツールが付属しています。
- 復元力のある分散データセット(RDD) – RDDは、計算ノードのクラスター全体でメモリ内にキャッシュできる分散オブジェクトです。これらは、Sparkで使用される主要なデータオブジェクトです。
- 分散演算子 – MapReduceの他に、RDDで使用できる他の多くの演算子があります。
NASA、Yahoo、Adobeなどの組織はSparkに取り組んでいます。 DatabricksのAlliancesand EcosystemLeadであるJohnTripierは、次のように述べています。次の訴訟」。 Hadoopのバックグラウンドをお持ちの場合、Sparkを学ぶのにこれほど良い時期はありません。
Edurekaは、実際の業界の実務家によって共同作成されたApache Spark&Scalaに関するコースを特別にキュレーションしました。業界関連のプロジェクトとともに差別化されたライブeラーニング体験については、コースをご覧ください。新しいバッチがまもなく開始されるので、ここでコースをチェックしてください: 。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。
関連記事:
これまでのJava解析文字列