HDFSチュートリアル:HDFSとその機能の概要



このHDFSチュートリアルブログは、HDFSまたはHadoop分散ファイルシステムとその機能を理解するのに役立ちます。また、そのコアコンポーネントについても簡単に説明します。

HDFSチュートリアル

このHDFSチュートリアルブログに進む前に、HDFSに関連する非常識な統計のいくつかを紹介します。

  • 2010年に、 フェイスブック 最大のHDFSクラスターストレージの1つを持っていると主張 21ペタバイト データの。
  • 2012年、 フェイスブック を超える最大の単一HDFSクラスターがあることを宣言しました 100 PB データの
  • そして Yahoo !以上を持っています 100,000 CPU 以上で 40,000台のサーバー 最大のHadoopクラスターを実行しているHadoopを実行している 4,500ノード 。とにかく、Yahoo!店舗 455ペタバイト HDFSのデータの。
  • 実際、2013年までに、Fortune50の有名企業のほとんどがHadoopの使用を開始しました。

消化しにくい?正しい。で説明したように 、Hadoopには2つの基本単位があります– S 激怒します そして 処理 。 Hadoopのストレージ部分と言うときは、 HDFS の略です Hadoop分散ファイルシステム 。それで、このブログでは、あなたに紹介します HDFS





ここで、私は話します:

  • HDFSとは何ですか?
  • HDFSの利点
  • HDFSの機能

HDFSについて話す前に、分散ファイルシステムとは何ですか?



DFSまたは分散ファイルシステム:

分散ファイルシステムはについて話します 管理します データ 、つまり 複数のコンピューターまたはサーバーにまたがるファイルまたはフォルダー。 つまり、DFSは、クラスター内の複数のノードまたはマシンにデータを格納し、複数のユーザーがデータにアクセスできるようにするファイルシステムです。つまり、基本的には、マシンで使用できるファイルシステムと同じ目的を果たします。たとえば、Windowsの場合はNTFS(New Technology File System)を使用し、Macの場合はHFS(Hierarchical File System)を使用します。唯一の違いは、分散ファイルシステムの場合、データを単一のマシンではなく複数のマシンに保存することです。ファイルはネットワーク全体に保存されますが、DFSは、マシンに座っているユーザーがすべてのデータがそのマシンに保存されているように感じるようにデータを整理および表示します。

今すぐサービスを利用する方法

HDFSとは何ですか?

Hadoop分散ファイルシステムまたはHDFSは、Javaベースの分散ファイルシステムであり、Hadoopクラスター内の複数のノードにまたがって大きなデータを保存できます。したがって、Hadoopをインストールすると、分散環境にデータを保存するための基盤となるストレージシステムとしてHDFSを取得できます。

それを理解するために例を見てみましょう。各マシンに1TBのハードドライブを備えた10台のマシンまたは10台のコンピューターがあるとします。現在、HDFSは、これらの10台のマシンの上にプラットフォームとしてHadoopをインストールすると、ストレージサービスとしてHDFSを取得すると述べています。 Hadoop分散ファイルシステムは、すべてのマシンがあらゆる種類のデータを格納するための個別のストレージを提供するように分散されています。



HDFSチュートリアル:HDFSの利点

1.分散ストレージ:

分散ストレージ-HDFSチュートリアル-Edureka

Hadoopクラスター内の10台のマシンのいずれかからHadoop分散ファイルシステムにアクセスすると、10 TBのストレージ容量(10台のマシンを超える合計ストレージ)を持つ単一の大きなマシンにログインしたように感じられます。どういう意味ですか?これは、10台のマシン(各1 TB)に分散される10TBの1つの大きなファイルを保存できることを意味します。だから、 物理的な境界に限定されない 個々のマシンの。

2.分散および並列計算:

データはマシン間で分割されるため、 分散および並列計算 。上記の例でこの概念を理解しましょう。 1台のマシンで1TBのファイルを処理するのに43分かかるとします。では、同じ構成のHadoopクラスターに10台のマシンがある場合(43分または4.3分)、同じ1TBファイルを処理するのにどのくらいの時間がかかりますか? 4.3分ですよね!ここで何が起こったのですか?各ノードは、1TBファイルの一部を並行して処理しています。そのため、以前は43分かかっていた作業が、10台に分割されてわずか4.3分で終了します。

3.水平方向のスケーラビリティ:

最後になりましたが、 水平スケーリング または スケールアウト Hadoopで。スケーリングには2つのタイプがあります。 垂直 そして 水平 。垂直スケーリング(スケールアップ)では、システムのハードウェア容量を増やします。つまり、より多くのRAMまたはCPUを調達し、それを既存のシステムに追加して、より堅牢で強力なものにします。ただし、垂直方向のスケーリングまたはスケールアップに関連する課題があります。

  • ハードウェア容量を増やすことができる制限は常にあります。そのため、マシンのRAMまたはCPUを増やし続けることはできません。
  • 垂直スケーリングでは、最初にマシンを停止します。次に、RAMまたはCPUを増やして、より堅牢なハードウェアスタックにします。ハードウェア容量を増やしたら、マシンを再起動します。システムを停止しているときのこのダウンタイムは、課題になります。

の場合には 水平スケーリング(スケールアウト) 、個々のマシンのハードウェア容量を増やす代わりに、既存のクラスターにノードを追加します。そして最も重要なのは、 外出先でマシンを追加する つまり、システムを停止せずに したがって、スケールアウトしている間、ダウンタイムやグリーンゾーンはありませんが、そのようなものはありません。 1日の終わりには、要件を満たすために、より多くのマシンが並行して動作するようになります。

HDFSチュートリアルビデオ:

HDFSに関連するすべての概念が詳細に説明されている以下のビデオをご覧ください。

データサイエンスの簡単な紹介

HDFSチュートリアル: HDFSの機能

次のHDFSチュートリアルブログでHDFSアーキテクチャを検討するときに、これらの機能について詳しく理解します。ただし、ここでは、HDFSの機能の概要を説明します。

  • 費用: 一般に、HDFSは、毎日使用するデスクトップ/ラップトップなどのコモディティハードウェアにデプロイされます。したがって、プロジェクトの所有コストの点で非常に経済的です。低コストのコモディティハードウェアを使用しているため、Hadoopクラスターのスケールアウトに多額の費用をかける必要はありません。つまり、HDFSにノードを追加することは費用効果が高くなります。
  • データの多様性と量: HDFSについて話すときは、巨大なデータ、つまりテラバイトとペタバイトのデータ、およびさまざまな種類のデータの保存について話します。そのため、構造化、非構造化、半構造化など、あらゆるタイプのデータをHDFSに保存できます。
  • 信頼性とフォールトトレランス: データをHDFSに保存すると、指定されたデータが内部でデータブロックに分割され、Hadoopクラスター全体に分散して保存されます。どのデータブロックがどのデータノードにあるかに関する情報は、メタデータに記録されます。 NameNode メタデータと DataNodes データの保存を担当します。
    名前ノードもデータを複製します。つまり、データの複数のコピーを維持します。このデータの複製により、HDFSは非常に信頼性が高く、フォールトトレラントになります。したがって、ノードのいずれかに障害が発生した場合でも、他のデータノードにあるレプリカからデータを取得できます。デフォルトでは、レプリケーション係数は3です。したがって、1 GBのファイルをHDFSに保存すると、最終的に3GBのスペースを占有します。名前ノードは定期的にメタデータを更新し、レプリケーション係数の一貫性を維持します。
  • データの整合性: データ整合性は、HDFSに保存されているデータが正しいかどうかについて話します。 HDFSは、保存されているデータの整合性をチェックサムに対して常にチェックします。障害が見つかった場合は、名前ノードに報告します。次に、名前ノードは追加の新しいレプリカを作成するため、破損したコピーを削除します。
  • 高スループット: スループットは、単位時間に実行される作業量です。ファイルシステムからデータにアクセスする速度について説明します。基本的に、それはあなたにシステムパフォーマンスについての洞察を与えます。上記の例で見たように、計算を強化するために10台のマシンをまとめて使用しました。そこで、処理時間を短縮することができました 43分 単なる 4.3分 すべてのマシンが並行して動作していたためです。そのため、データを並行して処理することで、処理時間を大幅に短縮し、高いスループットを実現しました。
  • データの局所性: データの局所性は、データを処理装置に移動するのではなく、処理装置をデータに移動することについて話します。従来のシステムでは、データをアプリケーション層に取り込み、処理していました。しかし今では、アーキテクチャと大量のデータのために、データをアプリケーション層に持ってくるとネットワークパフォーマンスを著しく低下させるそのため、HDFSでは、データが存在するデータノードに計算部分を持ち込みます。したがって、データを移動するのではなく、プログラムまたはプロセスを持ち込むことになります。データの一部です。

これで、HDFSとその機能について簡単に理解できました。しかし、私を信じてください、これは氷山の一角にすぎません。私の次の 、私は深く掘り下げます HDFSアーキテクチャ そして、HDFSの成功の背後にある秘密を明らかにします。一緒に私たちはあなたの頭の中で考えている次のようなすべての質問に答えます:

  • Hadoop分散ファイルシステムでデータを読み書きすると、舞台裏で何が起こりますか?
  • HDFSをフォールトトレラントにするラック認識のようなアルゴリズムは何ですか?
  • Hadoop分散ファイルシステムはどのようにレプリカを管理および作成しますか?
  • ブロック演算とは何ですか?

HDFSとその機能を理解したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。

質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。