これは、edurekaによる公開ウェビナー中によく寄せられる質問への回答を含むフォローアップ投稿です。オン 。
Hadoopに関するよくある質問
ディーパック:
Hadoopとは何ですか?
Apache Hadoopは、コモディティハードウェアのクラスター上でデータセットを保存および大規模に処理するためのオープンソースソフトウェアフレームワークです。これは、スケールアウトストレージと分散処理を備えたオープンソースのデータ管理ソフトウェアフレームワークです。これは、寄稿者とユーザーのグローバルコミュニティによって構築および使用されています。
詳細については、Hadoopブログ投稿をご覧ください そして 。
探す:
旅行、運輸、航空業界でのビッグデータのユースケースは何ですか?
サニー:
調査できるHadoop実装の実際のサンプルを教えてください。
私たちはリヴィですのピーク時の混雑が増加する時代に。輸送事業者は、輸送車両を良好な状態に保ちながら、サービスを提供するための費用効果の高い方法を常に模索しています。このドメインでのビッグデータ分析の使用は、次のような組織に役立ちます。
- ルートの最適化
- 地理空間分析
- 交通パターンと渋滞
- 資産のメンテナンス
- 収益管理(航空会社など)
- 在庫管理
- 燃料節約
- ターゲットを絞ったマーケティング
- カスタマー・ロイヤルティ
- キャパシティ予測
- ネットワークのパフォーマンスと最適化
実際のユースケースは次のとおりです。
に) 飛行費用の決定
b)在庫ロジスティクスの予測モデリング
c) Orbitz Worldwide –顧客の購入パターン
d) 6つのスーパースケールHadoopデプロイメント
です) Hadoop –追加以上のもの
f) エンタープライズでのHadoop
Pythonの重要なエラーは何ですか
Hadoop Real-worldの実装について詳しくは、次のURLをご覧ください。
Hirdesh:
Hadoopはすべてデータの処理と処理に関するものですか?レポートとビジュアル分析はどのように進めますか。 Qlikview、TableauをHadoopの上で使用できますか?
HadoopのコアコンポーネントであるHDFSとMapReduceは、すべてデータの保存と処理に関するものです。ストレージ用のHDFSと処理用のMapReduce。ただし、分析にはPigやHiveなどのHadoopコアコンポーネントが使用されます。 Visual Reports Tableauの場合、QlikViewをHadoop for VisualReportingに接続できます。
アミット:
HadoopとmongoDB
MongoDBは「運用」リアルタイムデータストアとして使用されますが、Hadoopはオフラインバッチデータの処理と分析に使用されます。
mongoDBは、MySQLのようなRDBMSの代わりにバックエンドとしてWebアプリケーションで使用できるドキュメント指向のスキーマレスデータストアですが、Hadoopは主にスケールアウトストレージおよび大量のデータの分散処理として使用されます。
続きを読む mongoDBとHadoopのブログ投稿 。
ここに:
Apache SparkはHadoopの一部ですか ?
Apache Sparkは、大規模なデータ処理のための高速で一般的なエンジンです。 Sparkはより高速で、インメモリ処理をサポートします。 Spark実行エンジンは、Hadoopが処理できるコンピューティングワークロードのタイプを拡大し、Hadoop 2.0YARNクラスターで実行できます。これは、Scalaクロージャを使用してこれらのオブジェクトを処理する機能とともに、インメモリオブジェクト(RDD)を格納できるようにする処理フレームワークシステムです。グラフ、データウェアハウス、機械学習、ストリーム処理をサポートしています。
Hadoop 2クラスターを使用している場合は、インストールを必要とせずにSparkを実行できます。それ以外の場合、SparkはスタンドアロンまたはEC2またはMesosで簡単に実行できます。 HDFS、HBase、Cassandra、および任意のHadoopデータソースから読み取ることができます。
Sparkについてもっと読む ここに 。
cassandra列ファミリーとテーブル
プラサド:
Apache Flumeとは何ですか?
Apache Flumeは、分散型で信頼性が高く、利用可能なシステムであり、大量のログデータをさまざまなソースから一元化されたデータソースに効率的に収集、集約、および移動します。
アミット:
SQLとNO-SQLデータベース
NoSQLデータベースは次世代データベースであり、主にいくつかのポイントに取り組んでいます
- 非リレーショナル
- 配布
- オープンソース
- 水平方向にスケーラブル
多くの場合、スキーマフリー、簡単なレプリケーションサポート、シンプルなAPI、結果整合性/ BASE(ACIDではない)、大量のデータなど、より多くの特性が適用されます。たとえば、差別化要因のいくつかは次のとおりです。
- NoSQLデータベースは水平方向にスケールアップし、より大きな負荷を処理するためにサーバーを追加します。一方、SQLデータベースは通常、垂直方向にスケールアップし、トラフィックが増加するにつれて単一のサーバーにますます多くのリソースを追加します。
- SQLデータベースでは、情報やデータを追加する前にスキーマを定義する必要がありましたが、NoSQLデータベースにはスキーマがなく、事前にスキーマを定義する必要はありません。
- SQLデータベースは、RDBMSの原則に従った行と列を持つテーブルベースですが、NoSQLデータベースは、ドキュメント、キーと値のペア、グラフ、またはワイド列ストアです。
- SQLデータベースは、SQL(構造化照会言語)を使用してデータを定義および操作します。 NoSQLデータベースでは、クエリはデータベースごとに異なります。
人気のあるSQLデータベース: MySQL、Oracle、Postgres、MS-SQL
人気 NoSQLデータベース:MongoDB、BigTable、Redis、RavenDb、Cassandra、HBase、Neo4j、CouchDB
上のブログを確認してください HadoopとNoSQL データベースとそのようなデータベースの利点:
コテスワララオ:
Hadoopにはクラスターテクノロジーが組み込まれていますか?
Hadoopクラスターはマスタースレーブアーキテクチャを使用します。これは、データを格納および処理するための単一のマスター(NameNode)とスレーブのクラスター(DataNode)で構成されます。 Hadoopは、メモリやディスクを共有しない多数のマシンで実行するように設計されています。これらのDataNodeは、を使用してクラスターとして構成されます。 。 Hadoopは、レプリケーションの概念を使用して、クラスター内で常に少なくとも1つのデータのコピーを使用できるようにします。データのコピーは複数あるため、オフラインになったり停止したりするサーバーに保存されているデータは、正常なコピーから自動的に複製できます。
ディネッシュ:
Hadoopのジョブとは何ですか?ジョブを介して何を達成できますか?
Hadoopでは、ジョブはデータを処理/分析するためのMapReduceプログラムです。 MapReduceという用語は、実際には、Hadoopプログラムが実行する2つの別個の異なるタスクを指します。 1つ目は、データのセットを取得してそれを別の中間データのセットに変換するマップタスクです。ここで、個々の要素がキーと値のペアに分解されます。 MapReduceジョブの2番目の部分であるReduceタスクは、マップからの出力を入力として受け取り、キーと値のペアを結合して、集約されたキーと値のペアのより小さなセットにします。 MapReduceという名前のシーケンスが示すように、Reduceタスクは常にMapタスクの完了後に実行されます。 MapReduceジョブについてもっと読む 。
Sukruth:
NameNodeの何が特別なのか ?
NameNodeは、HDFSファイルシステムの心臓部です。ファイルシステム内のすべてのファイルのディレクトリツリーなどのメタデータを保持し、クラスター全体でファイルデータが保持されている場所を追跡します。実際のデータは、HDFSブロックとしてDataNodeに保存されます。
クライアントアプリケーションは、ファイルを見つけたいとき、またはファイルを追加/コピー/移動/削除したいときはいつでもNameNodeと通信します。 NameNodeは、データが存在する関連するDataNodeサーバーのリストを返すことにより、成功した要求に応答します。 HDFSアーキテクチャについてもっと読む 。
ディネッシュ:
Hadoop 2.0が市場に投入されたのはいつですか?
Hadoop開発を管理するオープンソースグループであるApacheSoftware Foundation(ASF)は、2013年10月15日のブログで、Hadoop 2.0が一般提供(GA)になったことを発表しました。この発表は、長い間待った後、Apache Hadoop2.0とYARNが本番環境にデプロイする準備ができたことを意味します。詳細 ブログ。
ディネッシュ:
MapReduce以外のビッグデータアプリケーションのいくつかの例は何ですか?
MapReduceは、ビッグデータの問題を解決する多くのアプリケーションに最適ですが、グラフ処理(Google Pregel / Apache Giraphなど)やメッセージパッシングインターフェイス(MPI)を使用した反復モデリングなどの他のプログラミングモデルが要件をより適切に満たすわけではありません。
マリッシュ:
データはHDFSでどのように配置および索引付けされますか?
データは64MBのブロック(パラメーターで構成可能)に分割され、HDFSに保存されます。 NameNodeは、これらのブロックのストレージ情報をブロックIDとしてRAM(NameNodeメタデータ)に保存します。 MapReduceジョブは、NameNodeRAMに保存されているメタデータを使用してこれらのブロックにアクセスできます。
シャシュワット:
同じクラスターでMapReduce(MRv1)とMRv2(YARNを使用)の両方を使用できますか?
Hadoop 2.0は、Hadoop上でさまざまなアプリケーションを作成および実行するための新しいフレームワークYARNを導入しました。したがって、YARNとMapReduceはHadoop 2.0の2つの異なる概念であり、混合して同じ意味で使用しないでください。正しい質問は 「YARN対応のHadoop2.0クラスターでMRv1とMRv2の両方を実行することは可能ですか?」 この質問への答えは '番号' HadoopクラスターはMRv1とMRv2の両方を実行するように構成できますが、一度に実行できるデーモンのセットは1つだけです。これらのフレームワークは両方とも、最終的に同じ構成ファイルを使用します( 糸-site.xml そして mapred-site.xml )デーモンを実行するには、したがって、Hadoopクラスターで有効にできるのは2つの構成のうちの1つだけです。
人形:
次世代MapReduce(MRv2)とYARNの違いは何ですか?
YARNと次世代MapReduce(MRv2)は、Hadoop2.0の2つの異なる概念とテクノロジーです。 YARNは、MRv2だけでなく他のアプリケーションの実行にも使用できるソフトウェアフレームワークです。 MRv2は、YARN APIを使用して記述されたアプリケーションフレームワークであり、YARN内で実行されます。
バーラト:
LinuxコマンドラインでJavaクラスパスを設定する方法
Hadoop2.0はHadoop1.xアプリケーションに下位互換性を提供しますか?
ネハ:
Hadoop 1.0から2.0への移行には重いアプリケーションコードが必要ですか? 移行?
いいえ、「org.apache.hadoop.mapred」APIを使用して開発されたアプリケーションのほとんどは、再コンパイルせずにYARNで実行できます。 YARNはMRv1アプリケーションとバイナリ互換であり、「bin / hadoop」を使用してこれらのアプリケーションをYARNに送信できます。これについてもっと読む ここに 。
シェリン:
リソースマネージャーノードがHadoop2.0で失敗した場合はどうなりますか?
Hadoopリリース2.4.0以降、ResourceManagerの高可用性サポートも利用できます。 ResourceManagerは、フェイルオーバーにApacheZooKeeperを使用します。 Resource Managerノードに障害が発生した場合、セカンダリノードはZooKeeperに保存されているクラスター状態を介して迅速に回復できます。 ResourceManagerは、フェイルオーバー時に、キューに入れられ実行中のすべてのアプリケーションを再起動します。
サビラリ:
ApacheのHadoopフレームワークはClouderaHadoopで機能しますか?
Apache Hadoopは、HDFSに格納されている大規模なデータワークロードの分散処理をサポートするために、コアMapReduce処理エンジンとともに2005年に導入されました。これはオープンソースプロジェクトであり、複数のディストリビューションがあります(Linuxと同様)。 Cloudera Hadoop(CDH)は、Clouderaからのそのようなディストリビューションの1つです。他の同様のディストリビューションは、HortonWorks、MapR、Microsoft HDInsight、IBM InfoSphereBigInsightsなどです。
Arulvadivel:
ラップトップにHadoopをインストールし、OracleデータベースをHadoopに移行する簡単な方法はありますか?
あなたはできる 開始 と ラップトップ上のHortonWorksサンドボックスまたはClouderaQuick VM(少なくとも4 GBのRAMとi3以上のプロセッサを搭載)。説明に従って、SQOOPを使用してデータをOracleからHadoopに移動します ここに 。
ババニ:
Hadoopを学ぶために利用できる最高の本は何ですか?
皮切りに Hadoop:決定的なガイド トムホワイトと Hadoopオペレーション エリックサマーによる。
マヘンドラ:
Hadoopの決定的なガイドと同じように、Hadoop 2.0で利用できる読み物はありますか?
レビュー 最新の到着 Hadoop2.0の作成者の数人によって書かれた本棚に。
このシリーズのその他の質問にご期待ください。