Apache Flink:ストリームおよびバッチデータ処理のための次世代ビッグデータ分析フレームワーク



このブログで、ApacheFlinkとFlinkクラスターのセットアップについてすべて学びます。 Flinkは、リアルタイムおよびバッチ処理をサポートし、ビッグデータ分析で必見のビッグデータテクノロジーです。

Apache Flinkは、分散ストリームおよびバッチデータ処理用のオープンソースプラットフォームです。 Windows、Mac OS、LinuxOSで実行できます。このブログ投稿では、Flinkクラスターをローカルにセットアップする方法について説明します。これは多くの点でSparkに似ており、Apache Sparkのようなグラフおよび機械学習処理用のAPIがありますが、ApacheFlinkとApacheSparkはまったく同じではありません。





Flinkクラスターをセットアップするには、システムにjava7.x以降がインストールされている必要があります。 CentOS(Linux)の最後にHadoop-2.2.0をインストールしたので、Hadoop2.xと互換性のあるFlinkパッケージをダウンロードしました。以下のコマンドを実行して、Flinkパッケージをダウンロードします。

コマンド: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

ファイルを解凍して、flinkディレクトリを取得します。

コマンド: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



コマンド: ls

javaインスタンスとは

Flink環境変数を.bashrcファイルに追加します。

コマンド: sudo gedit .bashrc

.bashrcファイルの変更を有効にするには、以下のコマンドを実行する必要があります

コマンド: ソース.bashrc

次に、flinkディレクトリに移動し、クラスタをローカルで起動します。

コマンド: cd hefty-1.0.0

コマンド: bin / start-local.sh

クラスターを開始すると、新しいデーモンJobManagerが実行されていることを確認できます。

コマンド: jps

ブラウザを開き、http:// localhost:8081にアクセスして、Apache Flink WebUIを表示します。

ApacheFlinkを使用して簡単なワードカウントの例を実行してみましょう。

サンプルを実行する前に、システムにnetcatをインストールします(sudo yum install nc)。

新しいターミナルで、以下のコマンドを実行します。

コマンド: nc -lk 9000

flinkターミナルで以下のコマンドを実行します。このコマンドは、ストリーミングされたデータを入力として受け取り、そのストリーミングされたデータに対してワードカウント操作を実行するプログラムを実行します。

コマンド: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Web UIでは、実行状態のジョブを確認できます。

新しい端末で以下のコマンドを実行すると、ストリーミングおよび処理されたデータが出力されます。

コマンド: tail -f log/flink-*-jobmanager-*。out

次に、netcatを起動したターミナルに移動し、何かを入力します。

netcat端末でデータを入力した後にキーワードのEnterボタンを押すと、そのデータにワードカウント操作が適用され、出力がミリ秒以内にここに出力されます(flinkのジョブマネージャーログ)。

非常に短い期間内に、データはストリーミング、処理、および印刷されます。

ApacheFlinkについて学ぶことはもっとたくさんあります。今後のブログで他のFlinkトピックに触れます。

質問がありますか?コメントセクションでそれらに言及してください。折り返しご連絡いたします。

関連記事:

Apache Falcon:Hadoopエコシステム用の新しいデータ管理プラットフォーム

ビッグデータ分析の応用