Apache Flinkは、分散ストリームおよびバッチデータ処理用のオープンソースプラットフォームです。 Windows、Mac OS、LinuxOSで実行できます。このブログ投稿では、Flinkクラスターをローカルにセットアップする方法について説明します。これは多くの点でSparkに似ており、Apache Sparkのようなグラフおよび機械学習処理用のAPIがありますが、ApacheFlinkとApacheSparkはまったく同じではありません。
Flinkクラスターをセットアップするには、システムにjava7.x以降がインストールされている必要があります。 CentOS(Linux)の最後にHadoop-2.2.0をインストールしたので、Hadoop2.xと互換性のあるFlinkパッケージをダウンロードしました。以下のコマンドを実行して、Flinkパッケージをダウンロードします。
コマンド: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
ファイルを解凍して、flinkディレクトリを取得します。
コマンド: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
コマンド: ls
javaインスタンスとは
Flink環境変数を.bashrcファイルに追加します。
コマンド: sudo gedit .bashrc
.bashrcファイルの変更を有効にするには、以下のコマンドを実行する必要があります
コマンド: ソース.bashrc
次に、flinkディレクトリに移動し、クラスタをローカルで起動します。
コマンド: cd hefty-1.0.0
コマンド: bin / start-local.sh
クラスターを開始すると、新しいデーモンJobManagerが実行されていることを確認できます。
コマンド: jps
ブラウザを開き、http:// localhost:8081にアクセスして、Apache Flink WebUIを表示します。
ApacheFlinkを使用して簡単なワードカウントの例を実行してみましょう。
サンプルを実行する前に、システムにnetcatをインストールします(sudo yum install nc)。
新しいターミナルで、以下のコマンドを実行します。
コマンド: nc -lk 9000
flinkターミナルで以下のコマンドを実行します。このコマンドは、ストリーミングされたデータを入力として受け取り、そのストリーミングされたデータに対してワードカウント操作を実行するプログラムを実行します。
コマンド: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
Web UIでは、実行状態のジョブを確認できます。
新しい端末で以下のコマンドを実行すると、ストリーミングおよび処理されたデータが出力されます。
コマンド: tail -f log/flink-*-jobmanager-*。out
次に、netcatを起動したターミナルに移動し、何かを入力します。
netcat端末でデータを入力した後にキーワードのEnterボタンを押すと、そのデータにワードカウント操作が適用され、出力がミリ秒以内にここに出力されます(flinkのジョブマネージャーログ)。
非常に短い期間内に、データはストリーミング、処理、および印刷されます。
ApacheFlinkについて学ぶことはもっとたくさんあります。今後のブログで他のFlinkトピックに触れます。
質問がありますか?コメントセクションでそれらに言及してください。折り返しご連絡いたします。
関連記事:
Apache Falcon:Hadoopエコシステム用の新しいデータ管理プラットフォーム
ビッグデータ分析の応用