Amazon EMRでHadoopクラスターを作成する方法は?



この記事では、AWS EMRサービスについて説明し、その過程で、AmazonEMRを使用してHadoopクラスターを作成する方法を学習します。

作成方法に関するこの記事では クラスターAmazonEMRを使用すると、Hadoopおよびビッグデータアプリケーションを簡単に実行およびスケーリングする方法がわかります。この記事では、次のポイントについて説明します。

これに進みますAmazonEMRでHadoopクラスターを作成する方法は?





Amazon EMRでHadoopクラスターを作成する方法は?

GoogleやYahooで何かを検索すると、ほんの一瞬で応答が返ってきます。グーグル、ヤフー、その他の検索エンジンが、成長を続けるウェブからこれほど速く結果を返すことはどうして可能でしょうか?検索エンジンはインターネットをクロールし、Webページをダウンロードして、以下に示すようにインデックスを作成します。私たちからのクエリでは、インデックスを使用して、検索したテキストを含むすべてのWebページを把握します。右側の以下のインデックスを見ると、HadoopにWebページ1、2、3があることがはっきりとわかります。

画像-AmazonEMRを使用してHadoopクラスターを作成する方法-Edurekaそうして PageRankingアルゴリズム どのページを上部に表示し、どのページを下部に表示するかを判断するために、ページの接続方法に基づいて使用されます。以下のシナリオでは、W1は誰もがリンクしているため「最も人気があり」、W4は誰もリンクしていないため「最も人気がない」です。したがって、検索結果の上部にW1が表示され、下部にW4が表示されます。



Webページの爆発的な増加に伴い、これらの検索エンジンは、インデックスを作成してPageRankingの計算を行うための課題を見つけていました。ここでHadoopがYahooで誕生し、後にASF(Apache Software Foundation)の下でFOSS(Free and Open Source Software)になりました。 ASFの下に入ると、多くの企業がHadoopに関心を持ち始め、Hadoopの改善に貢献し始めました。 Hadoopはビッグデータ革命を開始したものでしたが、Spark、Hive、Pig、Sqoop、Zookeeper、HBase、Cassandra、Flumeなどの他の多くのソフトウェアは、Hadoopの制限とギャップに対処するために進化し始めました。

Hadoopを最初に使用したのはWeb検索エンジンでしたが、その後、生成されるデータが増えるにつれて、多くのユースケースが進化し始めました。ユーザーに本を推薦するために使用されるeコマースアプリケーションの例を見てみましょう。下の図のように、user1はbook1、book2、book3を購入し、user2はいくつかの本を購入しました。よく見ると、user1とuser2は、book1とbook2を購入したときと同じような趣味を持っていることがわかります。したがって、book3をuser2に推奨し、book4をuser1に推奨することができます。これは、機械学習アルゴリズムの一種である協調フィルタリングと呼ばれます。下の図を裏返して、同様の本を入手できます。

上記のケースでは、PageRankedのインデックスを作成し、ユーザーに推奨しました。データのサイズが小さかったため、データを視覚化し、そこからいくつかの結果を推測することができました。データのサイズが日々大きくなり、制御できなくなると、Hadoopのようなビッグデータツールが登場します。



Hadoopは多くの問題を解決しますが、Hadoopやその他のビッグデータソフトウェアのインストールは決して簡単な作業ではありませんでした。統合、インストール、構成の問題など、調整する必要のある構成パラメーターはたくさんあります。これはClouderaのような企業が とDatabricksが役立ちます。ビッグデータソフトウェアのインストールが簡単になり、商用サポートが提供されます。たとえば、本番環境で何かが発生したとします。 Amazon EMR(Elastic MapReduce)を使用すると、Hadoopなどの使いやすさが大幅に向上します。 EMRは、MapReduceだけでなく、Resilient Distributed Datasetsなどの他の分散コンピューティングモデルもサポートしているため、ElasticMapReduceという名前は少し誤解されています。

このチュートリアルでは、AWSクラウドでEMRクラスターをセットアップする方法を探り、次のチュートリアルでは、Spark、Hive、およびその他のプログラムをその上で実行する方法を探ります。

これに進みますAmazonEMRでHadoopクラスターを作成する方法は?

デモ:AWSでのEMRクラスターの作成

ステップ1: EMR管理コンソールに移動し、[クラスターの作成]をクリックします。コンソールでは、のメタデータ 終了したクラスター また、2か月間無料で保存されます。これにより、終了したクラスターを複製して再作成できます。

ステップ2 :クイックオプション画面で、[詳細オプションに移動]をクリックして、クラスターに関する詳細を指定します。

ステップ3: [詳細オプション]タブで、EMRクラスターにインストールするさまざまなソフトウェアを選択できます。 SQLインターフェースの場合、Hiveを選択できます。データフロー言語インターフェースの場合、Pigを選択できます。分散アプリケーションの調整には、ZooKeeperを選択できます。このタブでは、オプションのタスクであるステップを追加することもできます。ステップは、MapReduce、Pig、Hiveなどを使用したビッグデータ処理ジョブです。これらは、クラスターが作成されたら、このタブまたは後で追加できます。 「次へ」をクリックして、EMRクラスターに必要なハードウェアを選択します。

ステップ4: Hadoopは、マスターが作業のスケジューリングと割り当て、進行状況の確認などのすべての調整を行い、ワーカーがデータの処理と保存の実際の作業を行うマスターワーカーアーキテクチャに従います。単一のマスターは、単一障害点(SPOF)です。 Amazon EMRは、高可用性(HA)のマルチマスターをサポートしています。前の手順では、EMRでマルチマスタークラスターをセットアップできます。

EMRでは、コアとタスクの2種類のノードを使用できます。コアノードはデータの処理と保存の両方に使用され、タスクノードはデータの処理のみに使用されます。このチュートリアルでは、コストが少ないため、コアノードを1つだけ選択し、タスクノードを選択できません。また、 スポットインスタンス 以上 オンデマンド スポットインスタンスの方が安いからです。スポットインスタンスの欠点は、AWSによって自動的に終了できることです。 2分前の通知 。これは、練習のために、そしていくつかの実際のシナリオでも問題ありません。スポットインスタンスは、他のインスタンスタイプよりも優先度が低いため、自動的に終了します。 「次へ」をクリックします。

ステップ5: クラスター名を指定します。 「次へ」をクリックします。 「終了保護」はデフォルトでオンになっていることに注意してください。これにより、クラスターの終了中にいくつかの手順を導入することで、EMRクラスターが誤って削除されないようにします。

ステップ6: タブでは、EMRクラスターのさまざまなセキュリティオプションが指定されています。 EC2インスタンスにログインするには、KeyPairを選択する必要があります。 EMRは、適切なロールとセキュリティグループを自動的に作成し、それらをマスターEC2ノードとワーカーEC2ノードにアタッチします。 「クラスターの作成」をクリックします。

EC2インスタンスを購入し、さまざまなビッグデータソフトウェアをインストールして構成する必要があるため、クラスターの作成には数分かかります。最初、クラスターのステータスは「開始」状態になり、「待機中」状態に移行します。 「待機中」の状態では、EMRクラスターは、MR、Spark、Hiveなどのさまざまなビッグデータ処理ジョブの送信を待機しているだけです。

Javaで最大数を見つける

また、EC2管理コンソールから通知し、マスターとワーカーのEC2インスタンスが実行状態になっている必要があることに注意してください。これらは、EMRクラスター作成の一部として作成されたスポットインスタンスです。同じEC2は、EMR管理コンソールの[ハードウェア]タブからも確認できます。 [ハードウェア]タブでは、SpotEC2インスタンスの価格が0.032 $ /時間と表示されていることに注意してください。スポットインスタンスの価格は時間とともに変化し続け、オンデマンドEC2の価格よりもはるかに低くなっています。

ステップ7: EMRクラスターが正常に追加されたので、ステップまたはビッグデータ処理ジョブを追加できます。 [ステップ]タブに移動し、[ステップの追加]をクリックして、ステップのタイプ(MR、Hive、Sparkなど)を選択します。次のチュートリアルでも同じことを探ります。今のところ、[キャンセル]をクリックします。

ステップ8: EMRを開始する方法を確認したので、同じ方法を停止する方法を見てみましょう。

ステップ8.1: [終了]をクリックします。

ステップ8.2: 前の手順で説明したように、EMRクラスターの「終了保護」がオンになっていて、「終了」ボタンが無効になっています。 [変更]をクリックします。

ステップ8.3: 「オフ」ラジオボタンを選択し、チェックマークをクリックします。これで、[終了]ボタンが有効になります。これは、EMRクラスターを誤って削除しないようにするために、EMRが導入した追加の手順です。

EMRクラスターが終了ステータスになり、EC2が終了することに注意してください。最後に、EMRクラスターは終了ステータスに移行します。ここからAWSでの請求が停止します。追加のAWSコストが発生しないように、必ずクラスターを終了してください。

結論

このチュートリアルでは、Webコンソール(ブラウザー)から数分以内にEMRクラスターを開始する方法を確認しました。これは、 、AWSSDKまたはを使用して AWS CloudFormation 。 EMRクラスターのセットアップは数分で完了し、ビッグデータ処理をすぐに開始できます。処理が完了すると、出力をに保存できます。 S3 またはDynamoDBを使用して、クラスターをシャットダウンし、課金を停止します。この価格設定モデルと使いやすさのために、EMRはビッグデータ処理を行っている人々に大ヒットしています。サーバーを大量に購入し、ビッグデータソフトウェアのライセンスを取得して維持する必要はありません。」

これで、AmazonEMRを使用してHadoopクラスターを作成する方法に関するこの記事の最後に到達しました。このテーマの専門知識を習得したい場合、Edurekaは、ソリューションアーキテクト試験をクラックするために必要なものを正確にカバーするカリキュラムを考案しました。あなたはのためのコースの詳細を見ることができます トレーニング。

このブログに関連する質問がある場合は、下のコメントセクションに質問を入れてください。できるだけ早く返信させていただきます。