Hadoopのインストール:単一ノードのHadoopクラスターのセットアップ
以前のブログから 、Hadoop、HDFS、およびそのアーキテクチャに関する理論的なアイデアを持っている必要があります。しかし、取得するには 実践的な知識が必要です。以前のブログを気に入っていただけたでしょうか 、ここで、HadoopとHDFSに関する実践的な知識について説明します。最初のステップは、Hadoopをインストールすることです。
Hadoopをインストールするには、2つの方法があります。 シングルノード そして マルチノード 。
シングルノードクラスター 1台のマシンですべてのNameNode、DataNode、ResourceManager、およびNodeManagerを実行およびセットアップする1つのDataNodeのみを意味します。これは、学習とテストの目的で使用されます。たとえば、ヘルスケア業界内のサンプルデータセットについて考えてみましょう。したがって、Oozieジョブがデータの収集、集約、保存、処理などのすべてのプロセスを適切な順序でスケジュールしているかどうかをテストするために、単一ノードクラスターを使用します。数百台のマシンに分散されたテラバイトのデータを含む大規模な環境と比較して、小規模な環境でシーケンシャルワークフローを簡単かつ効率的にテストできます。
中にいる間 マルチノードクラスター 、複数のDataNodeが実行されており、各DataNodeは異なるマシンで実行されています。マルチノードクラスターは、ビッグデータを分析するために組織で実際に使用されます。上記の例を考慮すると、ペタバイトのデータをリアルタイムで処理する場合、データを処理するには数百台のマシンに分散させる必要があります。したがって、ここではマルチノードクラスターを使用します。
このブログでは、Hadoopを単一ノードクラスターにインストールする方法を紹介します。
前提条件
- 仮想ボックス :オペレーティングシステムをインストールするために使用されます。
- オペレーティング・システム :LinuxベースのオペレーティングシステムにHadoopをインストールできます。 UbuntuとCentOSは非常に一般的に使用されています。このチュートリアルでは、CentOSを使用しています。
- JAVA :システムにJava8パッケージをインストールする必要があります。
- HADOOP :Hadoop2.7.3パッケージが必要です。
Hadoopをインストールする
ステップ1: ここをクリック Java8パッケージをダウンロードします。このファイルをホームディレクトリに保存します。
ステップ2: JavaTarファイルを抽出します。
コマンド : tar -xvf jdk-8u101-linux-i586.tar.gz
図:Hadoopのインストール–Javaファイルの抽出
ステップ3: Hadoop2.7.3パッケージをダウンロードします。
コマンド : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
図:Hadoopのインストール–Hadoopのダウンロード
ステップ4: Hadooptarファイルを抽出します。
コマンド :tar -xvf hadoop-2.7.3.tar.gz
図:Hadoopのインストール–Hadoopファイルの抽出
ステップ5: HadoopパスとJavaパスをbashファイル(.bashrc)に追加します。
開いた 。 bashrc ファイル。次に、以下に示すように、HadoopとJavaパスを追加します。
コマンド : vi .bashrc
図:Hadoopのインストール–環境変数の設定
次に、bashファイルを保存して閉じます。
Tableauデータブレンディング左結合
これらすべての変更を現在のターミナルに適用するには、sourceコマンドを実行します。
コマンド : ソース.bashrc
図:Hadoopのインストール–環境変数の更新
JavaとHadoopがシステムに正しくインストールされており、ターミナルからアクセスできることを確認するには、ejava-versionコマンドとhadoopバージョンコマンドを実行します。
コマンド : java-バージョン
図:Hadoopのインストール–Javaバージョンの確認
コマンド : hadoopバージョン
図:Hadoopのインストール–Hadoopバージョンの確認
ステップ6 : 編集する 。
コマンド: cd hadoop-2.7.3 / etc / hadoop /
コマンド: ls
すべてのHadoop構成ファイルはにあります hadoop-2.7.3 / etc / hadoop 以下のスナップショットでわかるように、ディレクトリ:
図:Hadoopのインストール–Hadoop構成ファイル
ステップ7 : 開いた core-site.xml 構成タグ内で以下に説明するプロパティを編集します。
core-site.xml NameNodeがクラスター内で実行されている場所をHadoopデーモンに通知します。これには、HDFSとMapReduceに共通のI / O設定など、Hadoopコアの構成設定が含まれています。
コマンド : vi core-site.xml
図:Hadoopのインストール–core-site.xmlの構成
fs.default.name hdfs:// localhost:9000
ステップ8: 編集 hdfs-site.xml 構成タグ内で以下に説明するプロパティを編集します。
hdfs-site.xml HDFSデーモンの構成設定が含まれます(つまり、NameNode、DataNode、Secondary NameNode)。また、HDFSのレプリケーション係数とブロックサイズも含まれます。
コマンド : vi hdfs-site.xml
図:Hadoopのインストール–hdfs-site.xmlの構成
dfs.replication 1 dfs.permission false
ステップ9 : 編集する mapred-site.xml 構成タグ内で以下に説明するプロパティをファイルして編集します。
mapred-site.xml 並列実行できるJVMの数、マッパーとリデューサープロセスのサイズ、プロセスで使用可能なCPUコアなど、MapReduceアプリケーションの構成設定が含まれます。
場合によっては、mapred-site.xmlファイルが利用できません。したがって、mapred-site.xmlファイルを作成する必要がありますmapred-site.xmlテンプレートを使用します。
コマンド : cp mapred-site.xml.template mapred-site.xml
コマンド : 私達 mapred-地点。xml。
図:Hadoopのインストール–mapred-site.xmlの構成
mapreduce.framework.nameヤーン
ステップ10: 編集 糸-site.xml 構成タグ内で以下に説明するプロパティを編集します。
糸-site.xml アプリケーションのメモリ管理サイズ、プログラムとアルゴリズムで必要な操作など、ResourceManagerとNodeManagerの構成設定が含まれています。
コマンド : viyarn-site.xml
図:Hadoopのインストール–yarn-site.xmlの構成
糸.nodemanager.aux-サービスmapreduce_shuffleyarn.nodemanager.auxservices.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler
ステップ11: 編集 hadoop-env.sh 以下のようにJavaパスを追加します。
hadoop-env.sh JavaホームパスなどのHadoopを実行するためにスクリプトで使用される環境変数が含まれています。
コマンド : 私達 hadoop-環境sh
doubleをintjavaに変換する方法
図:Hadoopのインストール–hadoop-env.shの構成
ステップ12: Hadoopホームディレクトリに移動し、NameNodeをフォーマットします。
コマンド : CD
コマンド : cd hadoop-2.7.3
コマンド : bin / hadoop目的-フォーマット
図:Hadoopのインストール–NameNodeのフォーマット
これにより、NameNodeを介してHDFSがフォーマットされます。このコマンドは初めて実行されます。ファイルシステムのフォーマットは、dfs.name.dir変数で指定されたディレクトリを初期化することを意味します。
Hadoopファイルシステムをフォーマットして稼働させないでください。 HDFSに保存されているすべてのデータが失われます。
ステップ13: NameNodeがフォーマットされたら、hadoop-2.7.3 / sbinディレクトリに移動し、すべてのデーモンを起動します。
コマンド: cd hadoop-2.7.3 / sbin
1つのコマンドですべてのデーモンを起動することも、個別に起動することもできます。
コマンド: ./ start-all.sh
上記のコマンドは、 start-dfs.sh、start-yarn.sh & mr-jobhistory-daemon.sh
または、以下のようにすべてのサービスを個別に実行できます。
NameNodeを開始します。
NameNodeは、HDFSファイルシステムの中心的存在です。 HDFSに保存されているすべてのファイルのディレクトリツリーを保持し、クラスター全体に保存されているすべてのファイルを追跡します。
コマンド: ./hadoop-daemon.sh開始目的
図:Hadoopのインストール–NameNodeの開始
DataNodeを開始します。
起動時に、DataNodeはNamenodeに接続し、Namenodeからのさまざまな操作の要求に応答します。
コマンド: ./hadoop-daemon.sh startdatanode
図:Hadoopのインストール–DataNodeの開始
ResourceManagerを起動します。
ResourceManagerは、使用可能なすべてのクラスターリソースを調停するマスターであるため、YARNシステムで実行されている分散アプリケーションの管理に役立ちます。その仕事は、各NodeManagerと各アプリケーションのApplicationMasterを管理することです。
再帰フィボナッチc ++
コマンド: 。/糸-daemon.sh startresourcemanager
図:Hadoopのインストール–ResourceManagerの起動
NodeManagerを起動します。
各マシンフレームワークのNodeManagerは、コンテナの管理、リソースの使用状況の監視、およびResourceManagerへのレポートを担当するエージェントです。
コマンド: 。/糸-daemon.sh startnodemanager
図:Hadoopのインストール–NodeManagerの起動
JobHistoryServerを起動します。
JobHistoryServerは、クライアントからのすべてのジョブ履歴関連の要求を処理する責任があります。
コマンド : ./mr-jobhistory-daemon.sh start historyserver
ステップ14: すべてのHadoopサービスが稼働していることを確認するには、以下のコマンドを実行します。
コマンド: jps
図:Hadoopのインストール–デーモンのチェック
ステップ15: 次に、Mozillaブラウザを開いて、 ローカルホスト : 50070 / dfshealth.html NameNodeインターフェースをチェックします。
図:Hadoopのインストール–WebUIの開始
おめでとうございます。これで、単一ノードのHadoopクラスターが一度に正常にインストールされました。次のブログでは 、マルチノードクラスターにHadoopをインストールする方法についても説明します。
Hadoopのインストール方法を理解したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。