APACHE FLINK：次世代のビッグデータ分析フレームワーク| ブログ

Apache Flinkは、分散ストリームおよびバッチデータ処理用のオープンソースプラットフォームです。 Windows、Mac OS、LinuxOSで実行できます。このブログ投稿では、Flinkクラスターをローカルにセットアップする方法について説明します。これは多くの点でSparkに似ており、Apache Sparkのようなグラフおよび機械学習処理用のAPIがありますが、ApacheFlinkとApacheSparkはまったく同じではありません。

Flinkクラスターをセットアップするには、システムにjava7.x以降がインストールされている必要があります。 CentOS（Linux）の最後にHadoop-2.2.0をインストールしたので、Hadoop2.xと互換性のあるFlinkパッケージをダウンロードしました。以下のコマンドを実行して、Flinkパッケージをダウンロードします。

コマンド： wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

ファイルを解凍して、flinkディレクトリを取得します。

コマンド： tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

コマンド： ls

javaインスタンスとは

Flink環境変数を.bashrcファイルに追加します。

コマンド： sudo gedit .bashrc

.bashrcファイルの変更を有効にするには、以下のコマンドを実行する必要があります

コマンド： ソース.bashrc

次に、flinkディレクトリに移動し、クラスタをローカルで起動します。

コマンド： cd hefty-1.0.0

コマンド： bin / start-local.sh

クラスターを開始すると、新しいデーモンJobManagerが実行されていることを確認できます。

コマンド： jps

ブラウザを開き、http：// localhost：8081にアクセスして、Apache Flink WebUIを表示します。

ApacheFlinkを使用して簡単なワードカウントの例を実行してみましょう。

サンプルを実行する前に、システムにnetcatをインストールします（sudo yum install nc）。

新しいターミナルで、以下のコマンドを実行します。

コマンド： nc -lk 9000

flinkターミナルで以下のコマンドを実行します。このコマンドは、ストリーミングされたデータを入力として受け取り、そのストリーミングされたデータに対してワードカウント操作を実行するプログラムを実行します。

コマンド： bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Web UIでは、実行状態のジョブを確認できます。

新しい端末で以下のコマンドを実行すると、ストリーミングおよび処理されたデータが出力されます。

コマンド： tail -f log/flink-*-jobmanager-*。out

次に、netcatを起動したターミナルに移動し、何かを入力します。

netcat端末でデータを入力した後にキーワードのEnterボタンを押すと、そのデータにワードカウント操作が適用され、出力がミリ秒以内にここに出力されます（flinkのジョブマネージャーログ）。

非常に短い期間内に、データはストリーミング、処理、および印刷されます。

ApacheFlinkについて学ぶことはもっとたくさんあります。今後のブログで他のFlinkトピックに触れます。

質問がありますか？コメントセクションでそれらに言及してください。折り返しご連絡いたします。

ビッグデータ分析の応用

Apache Flink：ストリームおよびバッチデータ処理のための次世代ビッグデータ分析フレームワーク

このブログで、ApacheFlinkとFlinkクラスターのセットアップについてすべて学びます。 Flinkは、リアルタイムおよびバッチ処理をサポートし、ビッグデータ分析で必見のビッグデータテクノロジーです。

カテゴリー

Popular Articles

JavaでのPOJOについて知っておくべきことすべて

デジタルマーケティングを学ぶためのトップ10の理由は何ですか？

JavaのSwitchケースとは何ですか？

Javaでメソッド非表示を実装する方法

DynamoDBとMongoDB：どちらがビジネスニーズをよりよく満たすか？

WindowsにOpenCVPythonをインストールする方法

Pythonでのファイル処理について知っておくべきことすべて

PySparkチュートリアル–Pythonを使用してApacheSparkを学ぶ

Ansibleプロビジョニング：よりスマートで簡単なプロビジョニング方法

Hadoopのキャリア：ビッグデータ分析のキャリア

PythonのZipおよびUnZip関数とは何ですか？

Edurekaサクセスストーリー–学生からDevOpsエンジニアへのNidhiの旅