Hadoopをマスターしましたか? ApacheSparkを使い始める時間



このブログ投稿では、Hadoopの後にApache Sparkを使い始めなければならない理由と、Hadoopを習得した後にSparkを学ぶことがあなたのキャリアに驚異的な効果をもたらす理由を説明しています。

Hadoopは、誰もが知っているように、ビッグデータのポスターの少年です。エレファンティネの割合のデータを処理できるソフトウェアフレームワークとして、HadoopはCIOの流行語リストのトップに躍り出ました。





ただし、メモリ内スタックの前例のない上昇により、ビッグデータエコシステムは分析の新しい代替手段になりました。 MapReduceの分析方法は、Hadoopフレームワークの内部と外部の両方で分析を可能にする新しいアプローチに置き換えられています。 Apache Sparkは、ビッグデータ分析の新しい顔です。

ビッグデータ愛好家は、ApacheSparkを世界で最もホットなビッグデータのデータコンピューティングエンジンとして認定しています。 MapReduceとJavaをその位置からすばやく排出しており、仕事の傾向はこの変化を反映しています。 TypeSafeの調査によると、現在、グローバルJava開発者の71%がSparkを評価または調査しており、35%がすでにSparkを使用し始めています。 Sparkの専門家は現在需要があり、その後数週間で、Spark関連の仕事の機会の数は屋根を通り抜けると予想されています。



では、Apache SparkがすべてのCIOのやることリストの一番上に表示されるのはどういうことですか?

Tableauでのデータブレンディングとは

ApacheSparkの興味深い機能のいくつかを次に示します。

  • Hadoop統合 – Sparkは、HDFSに保存されているファイルを処理できます。
  • Sparkのインタラクティブシェル – SparkはScalaで記述されており、独自のバージョンのScalaインタープリターがあります。
  • SparkのAnalyticSuite – Sparkには、インタラクティブなクエリ分析、大規模なグラフ処理と分析、およびリアルタイム分析のためのツールが付属しています。
  • 復元力のある分散データセット(RDD) – RDDは、計算ノードのクラスター全体でメモリ内にキャッシュできる分散オブジェクトです。これらは、Sparkで使用される主要なデータオブジェクトです。
  • 分散演算子 – MapReduceの他に、RDDで使用できる他の多くの演算子があります。

NASA、Yahoo、Adobeなどの組織はSparkに取り組んでいます。 DatabricksのAlliancesand EcosystemLeadであるJohnTripierは、次のように述べています。次の訴訟」。 Hadoopのバックグラウンドをお持ちの場合、Sparkを学ぶのにこれほど良い時期はありません。



Edurekaは、実際の業界の実務家によって共同作成されたApache Spark&Scalaに関するコースを特別にキュレーションしました。業界関連のプロジェクトとともに差別化されたライブeラーニング体験については、コースをご覧ください。新しいバッチがまもなく開始されるので、ここでコースをチェックしてください:

質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。

関連記事:

これまでのJava解析文字列

ApacheSparkとHadoopMapReduce