ビッグデータの需要が高まるにつれ、ApacheHadoopはで革命の中心であるこのことは、データの整理と計算の方法を変えました。組織がHadoopをビジネスニーズに合わせる必要性が、商用ディストリビューションの出現を後押ししています。商用Hadoopディストリビューションは通常、Hadoopのデプロイを合理化するように設計された機能とともにパッケージ化されています。 Cloudera Hadoop Distributionは、スケーラブルで柔軟な統合プラットフォームを提供し、企業内で急速に増加するボリュームと種類のデータを簡単に管理できるようにします。
Cloudera Hadoop Distributionに関するこのブログでは、次のトピックについて説明します。
Cloudera Hadoop:Hadoopの概要
Hadoopは、分散環境でビッグデータを保存および処理するApacheオープンソースフレームワークです。越えて単純なプログラミングモデルを使用したクラスター。 Hadoopは、分散ストレージ上で並列計算を提供します。Hadoopの詳細については、 あなたはこれを参照することができます
このHadoopの簡単な紹介の後、さまざまなタイプのHadoopディストリビューションについて説明します。
Cloudera Hadoop:Hadoopディストリビューション
Apache Hadoopはオープンソースであるため、多くの企業が元のオープンソースコードを超えるディストリビューションを開発しています。これは、RedHat、Fedora、UbuntuなどのLinuxディストリビューションと非常によく似ています。各Linuxディストリビューションは、UbuntuのユーザーフレンドリーなGUIなどの独自の機能をサポートしています。同様に、 Red Hat サポートを提供し、システムの任意の部分に自由に変更を加えるためのイデオロギーも提供するため、企業内で人気があります。 Red Hatは、ソフトウェアの互換性の問題からあなたを解放します。これは通常、ユーザーにとって大きな問題ですWindowsから移行している人。
同様に、Hadoopディストリビューションには3つの主要なタイプがあり、独自の機能と機能のセットがあり、ベースHDFSの下に構築されています。
Cloudera vs MapR vs Hortonworks
図:MapR vs Hortonworks vs Cloudera
ClouderaHadoopディストリビューション
ClouderaはHadoopスペースの市場トレンドであり、商用Hadoopディストリビューションをリリースした最初の製品です。 「ApacheHadoopが提供するもの」と「組織が必要とするもの」の間のギャップを埋めるためのコンサルティングサービスを提供します。
Clouderaディストリビューションは次のとおりです。
- ビジネスのための速い :分析からデータサイエンス、そしてその間のすべてに至るまで、Clouderaは無制限のデータの可能性を解き放つために必要なパフォーマンスを提供します。
- Hadoopの管理を容易にします :Cloudera Managerを使用すると、自動化されたウィザードを使用して、規模や展開環境に関係なく、クラスターをすばやく展開できます。
- 妥協することなく安全: ビジネスの俊敏性を犠牲にすることなく、厳格なデータセキュリティとコンプライアンスのニーズに対応します。 Clouderaは、データのセキュリティとガバナンスへの統合されたアプローチを提供します。
Horton-Works 分布
Horton-Works Data Platform(HDP)は、多くのソースおよびフォーマットからのデータを操作するように設計された完全にオープンソースのプラットフォームです。プラットフォームには、Hadoop分散ファイルシステム(HDFS)、MapReduce、Zookeeper、HBase、Pig、Hive、その他のコンポーネントなど、さまざまなHadoopツールが含まれています。
また、次のような機能もサポートしています。
- HDPはハイブを作ります もっと早く その新しいスティンガープロジェクトを通じて。
- HDP ベンダーロックインを回避します フォークされたバージョンのHadoopに誓約することによって。
- HDPは、 使いやすさ Hadoopプラットフォームの
MapRの配布
MapRは、HortonWorksやClouderaと同様に、プラットフォームに重点を置いたHadoopソリューションプロバイダーです。 MapRは、Hadoop配布サービスを提供しながら、MapR-DBと呼ばれる独自のデータベースシステムを統合します。 MapR-DBは、他のディストリビューションで実行されるストックHadoopデータベース(HBase)よりも4〜7倍高速であると主張されています。
次のような興味深い機能があります。
- これは、MapR-File Systemに依存しているため、Javaに依存しないPig、Hive、およびSqoopを含む唯一のHadoopディストリビューションです。
- MapRは、最もユーザーフレンドリーで高速で信頼性の高いHadoopディストリビューションであり、多くの機能強化が施されています。
それでは、ClouderaHadoopディストリビューションについて詳しく説明しましょう。
YouTubeチャンネルに登録して、新しいアップデートを入手してください...
Cloudera Hadoop:Clouderaディストリビューション
Clouderaは、最初の商用HadoopディストリビューションをリリースしたHadoopスペースで最も有名なプレーヤーです。
図:ClouderaHadoopディストリビューション
Cloudera Hadoopディストリビューションは、次の一連の機能をサポートしています。
- ClouderaのCDHは、すべてのオープンソースコンポーネントで構成され、エンタープライズクラスのデプロイを対象としており、最も人気のある商用Hadoopディストリビューションの1つです。
- その革新性で知られるClouderaは、最初に提供したものです SQL-for-Hadoop そのと インパラ クエリエンジン。
- 管理コンソール– Cloudera Manager は、使いやすく実装が簡単で、すべてのクラスター情報を整理されたクリーンな方法で表示する豊富なユーザーインターフェイスを備えています。
- CDHでは、中断することなく、稼働中のクラスターにサービスを追加できます。
- Clouderaの他の追加には、セキュリティ、ユーザーインターフェイス、およびサードパーティアプリケーションと統合するためのインターフェイスが含まれます。
- CDHは提供します ノードテンプレート つまり、さまざまな構成でHadoopクラスター内にノードのグループを作成できます。これにより、Hadoopクラスター全体で同じ構成を使用する必要がなくなります。
- また、以下をサポートします。
- 信頼性
Hadoopベンダーは、バグが検出されるたびに迅速に対応します。商用ソリューションをより安定させることを目的として、パッチと修正がすぐに展開されます。 サポート
Cloudera Hadoopベンダーは、顧客がエンタープライズレベルのタスクやミッションクリティカルなアプリケーションにHadoopを簡単に採用できるようにする技術的なガイダンスと支援を提供します。完全
Hadoopベンダーは、ディストリビューションを他のさまざまなアドオンツールと組み合わせて、顧客がHadoopアプリケーションをカスタマイズして特定のタスクに対処できるようにします。ハッシュマップとハッシュテーブル
- 信頼性
Clouderaディストリビューションには、2種類のエディションがあります。
- Cloudera Express Edition
- Cloudera Enterprise Edition
それでは、それらの違いを見てみましょう。
特徴 | Cloudera-Express | Cloudera-エンタープライズ |
クラスター管理 | ||
1.マルチクラスター管理 | はい | はい |
2.リソース管理 | はい | はい |
展開 | ||
1. CDH4および5のサポート | はい | はい |
2.CDHのローリングアップグレード | 番号 | はい |
サービスと構成の管理 | ||
1. HDFS、MapReduce、YARN、Impala、HBase、Hive、Hue、Oozie、Zookeeper、Solr、Spark、およびAccumuloサービスを管理します | はい | はい |
2.サービスのローリングリスタート | 番号 | はい |
セキュリティ | ||
1.LDAP認証 | 番号 | はい |
2.SAML認証 | 番号 | はい |
監視と診断 | ||
1.健康履歴 | はい | はい |
アラート管理 | ||
1.電子メールによるアラート | はい | はい |
2.SNMPを介したアラート | 番号 | はい |
高度な管理機能 | ||
1.自動バックアップとリカバリ | 番号 | はい |
2.ファイルの閲覧と検索 | 番号 | はい |
3. MapReduce、Impala、HBase、Yarnの使用状況レポート | 番号 | はい |
Cloudera Hadoop:Cloudera Manager
Clouderaによると、ClouderaManagerは インストール 、 構成、設定 、 管理する 、および モニター Hadoopスタック。
それは提供します:
- 自動化された展開と構成
- カスタマイズ可能な監視とレポート
- 簡単で堅牢なトラブルシューティング
- ゼロ–ダウンタイムのメンテナンス
ClouderaHadoopとそのさまざまなツールに関する詳細な知識を得る
ClouderaManagerのデモンストレーション
ClouderaManagerを見てみましょう。
1.下の図は、ClouderaManagerで現在実行されているサービスの数を示しています。クラスタのCPU使用率、ディスクIOの使用率などに関するグラフを表示することもできます。
図:ClouderaManagerのホームページ
2.以下の画像は、HBaseクラスターを示しています。現在実行中のHBaseRESTサーバーのヘルス状態に関するチャートとグラフを提供します。
図:HBaseサーバーのヘルス状態
機械学習で過剰適合しているもの
3.次に、ステータスとIP構成を確認できるHBaseクラスターの[インスタンス]タブを見てみましょう。
図:HBaseクラスターのホストサーバーのステータスとIPアドレス
4.次に、[構成]タブがあります。ここでは、すべての構成パラメーターを確認し、それらの値を変更できます。
図:HBaseクラスターの構成
それでは、Clouderaの小包とは何かを理解しましょう。
Cloudera Hadoop:小包
パーセルは、ClouderaManagerによって使用される追加のメタデータとともにプログラムファイルを含むバイナリ配布形式です。
パーセルは自己完結型であり、バージョン管理されたディレクトリにインストールされます。つまり、特定のサービスの複数のバージョンを並べてインストールできます。
Parcelを使用する利点は次のとおりです。
CDHを単一のオブジェクトとして配布します。つまり、CDHの各部分に個別のパッケージを用意する代わりに、小包にはインストールするオブジェクトを1つだけ用意します。
内部の一貫性を提供します(完全なCDHが単一の区画として配布されるため、すべてのCDHコンポーネントが一致し、異なるバージョンのCDHから異なるパーツが発生するリスクはありません)。
数回クリックするだけで、CDHの区画をインストール、アップグレード、ダウングレード、配布、およびアクティブ化できます。
それでは、Parcelsを使用してCDHにKafkaサービスをインストールしてアクティブ化する方法を見てみましょう。
- 以下に示すように、Clouderaマネージャーのホームページ>>ホスト>>区画に移動します
図:ホストからの区画の選択
2.区画のリストにKafkaが表示されない場合は、その区画をリストに追加できます。
- 使用したいKafkaバージョンの小包を見つけます。表示されない場合は、区画リポジトリをリストに追加できます。
- インストールするKafkaのバージョンの小包を見つけます– ApacheKafkaバージョンのClouderaディストリビューション 。
下の図は同じことを示しています。
図:区画のリポジトリパス。
3。上図に示すようにリンクをコピーし、下図に示すようにリモートパーセルリポジトリに追加します。
図:リポジトリからのKafkaパスの追加
四。パスを追加すると、Kafkaをダウンロードできるようになります。ダウンロードボタンをクリックするだけで、Kafkaをダウンロードできます。
図:Kafkaのダウンロード
5. Kafkaがダウンロードされたら、配布してアクティブ化するだけです。
図:Kafkaのアクティブ化
有効にすると、ClouderaManagerの[サービス]タブでKafkaを表示できます。
図:カフカサービス
Cloudera Hadoop:Oozieワークフローの作成
XMLコードを手動で記述して実行することでワークフローを作成することは、複雑です。あなたはこれを参照することができます Oozieジョブのスケジュール ブログ、伝統的なアプローチについて知るために。
以下の画像をご覧ください。ここでは、単純なOozieワークフローを作成するためのXMLファイルを作成しています。 図:従来のアプローチを使用したOozieワークフローの作成
ご覧のとおり、単純なOozieスケジューラーを作成する場合でも、時間のかかる巨大なXMLコードを作成する必要があり、すべての行のデバッグが面倒になります。これを克服するために、ClouderaManagerはと呼ばれる新機能を導入しました 色相 これは、GUIと、Oozieワークフローを作成および実行するための単純なドラッグアンドドロップ機能を提供します。
次に、Hueが同じタスクを簡単な方法で実行する方法を見てみましょう。
ワークフローを作成する前に、まず入力ファイル、つまりclickstream.txtとuser.txtを作成しましょう。
user.txtファイルには、以下に示すように、ユーザーID、名前、年齢、国、性別が含まれています。ユーザーIDに基づいてURL(クリックストリームファイルに記載)のユーザー数とクリック数を知るには、このユーザーファイルが必要です。
図:テキストファイルの作成
各URLでのユーザーによるクリック数を知るために、ユーザーIDとURLを含むクリックストリームがあります。
図:クリックストリームファイル
スクリプトファイルにクエリを書いてみましょう。
図:スクリプトファイル
次にユーザーファイル、クリックストリームファイル、スクリプトファイルを作成したら、Oozieワークフローを作成できます。
1.画像に示すように、Oozieワークフローをドラッグアンドドロップするだけです。
図:Oozieワークフローを作成するためのドラッグアンドドロップ機能
2.アクションを削除した直後に、スクリプトファイルへのパスを指定し、スクリプトファイルに記載されているパラメーターを追加する必要があります。ここでは、OUTPUT、CLICKSTREAM、およびUSERパラメーターを追加し、各パラメーターへのパスを指定する必要があります。
Javaでのコメントの種類
図:アクションを実行するためのスクリプトファイルと必要なパラメーターの追加
3.パスを指定してパラメーターを追加したら、次の画像に示すように、ワークフローを保存して送信するだけです。
図:Oozieアクションの保存と送信
4.タスクを送信すると、ジョブが完了します。実行と他のステップはHueによって処理されます。
図:Oozieジョブの実行ステータス
5.5。Oozieジョブを実行したので、アクションタブを見てみましょう。これには、ユーザーIDとワークフローのステータスが含まれます。また、エラーコードがある場合は、アクションアイテムの開始時刻と終了時刻も表示されます。
図:Oozieワークフローのアクションタブに存在する要素
6. [アクション]タブの横には、[詳細]タブがあります。これで、ジョブの開始時刻と最終変更時刻を確認できます。
図:Oozieワークフローの詳細。
7. [詳細]タブの横に、ワークフローの[構成]タブがあります。
図:Oozieワークフローの構成設定
7.アクションアイテムの実行中にエラーが発生した場合は、[ログ]タブに一覧表示されます。エラーステートメントを参照して、それに応じてデバッグできます。
図:エラーコードとエラーステートメントを含むログファイル
8.これは、Hueによって自動的に生成されるワークフローのXMLコードです。
図:OozieワークフローのXMLコード
9.1。手順2で出力ディレクトリのパスをすでに指定しているので、以下に示すように、HDFSブラウザに出力ディレクトリがあります。
図:HDFSブラウザの出力ディレクトリ
9.2出力ディレクトリをクリックすると、output.txtという名前のテキストファイルが表示されます。このテキストファイルには、次の図に示すように実際の出力が含まれています。
図:最終出力テキスト
これが、Hueがドラッグアンドドロップオプションを提供してOozieワークフローを作成することにより、作業を簡単にする方法です。
このブログがClouderaディストリビューションとさまざまなClouderaコンポーネントを理解するのに役立つことを願っています。
ビッグデータ革命に参加してみませんか?Cloudera Hadoopディストリビューションを理解したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。