新時代のクエリエンジンであるApacheDrillのドリルダウン



このApacheDrillチュートリアルでは、Apache Drillクエリエンジンの使用を開始するために必要なすべての情報、Hadoop、ビッグデータ、ApacheSparkの使用法について説明します。

Apache Drillは、業界初のスキーマフリーSQLエンジンです。ドリルは世界初のクエリエンジンではありませんが、柔軟性と速度の微妙なバランスをとる最初のエンジンです。ドリルは、数千のノードに拡張し、BI / Analytics環境が必要とするインタラクティブな速度でペタバイトのデータをクエリするように設計されています。





Hive、HBase、MongoDB、ファイルシステム、RDBMSなどのいくつかのデータソースと統合できます。また、Avro、CSV、TSV、PSV、Parquet、Hadoopシーケンスファイルなどの入力形式をDrillで簡単に使用できます。

なぜApacheDrillなのか?

Apache Drillの最大の利点は、データをクエリするときにその場でスキーマを検出できることです。さらに、Tableau、Qlikview、MicroStrategyなどのBIツールと連携して、分析を向上させることができます。



ApacheDrillの価値を要約した業界アナリストからの引用は次のとおりです。

「ドリルはSQL-on-Hadoopだけではありません。それは、SQL-on-pretty-much-anything、即時、そして形式的なものではありません。」

– Andrew Burst、Gigaom Research、2015年1月



ドリルビットは、クラスター内の各ノードで実行されるApacheDrillのデーモンです。クラスター内のすべての通信とmaintaisnクラスターメンバーシップにZooKeeperを使用します。クライアントからの要求を受け入れ、クエリを処理し、結果をクライアントに返す責任があります。クライアントからの要求を受け取るドリルビットは「フォアマン」と呼ばれます。実行プランを生成し、実行フラグメントはクラスターで実行されている他のドリルビットに送信されます。

Drillbits-Apache-Drill

もう1つの利点は、ドリルの取り付けとセットアップが非常に簡単なことです。 ApacheDrillのインストール方法を学びましょう。

最初のステップは、ドリルパッケージをダウンロードすることです。

配列javaで最大値を見つける

コマンド: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

コマンド: tar -xvf apache-drill-1.5.0.tar.gz

コマンド: ls

次に、.bashrcファイルに環境変数を設定します。

コマンド: sudo gedit .bashrc

エクスポートDRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH:/home/edureka/apache-drill-1.5.0/bin

このコマンドは変更を更新します:

コマンド: ソース.bashrc

次に、drill confディレクトリに移動し、クラスターIDとzookeeperホストとポートを使用してdrill-override.confファイルを編集します。これをローカルクラスターで実行します。

コマンド: cd apache-drill-1.5.0

コマンド: sudo gedit conf / Drill-override.conf

デフォルトでは、DRILL_MAX_DIRECT_MEMORYはdrill-env.shで8 GBになり、メモリに応じて保持する必要があります。

コマンド: sudo gedit conf / Drill-env.sh

ドリルを単一ノードにのみインストールするには、ローカルで実行される埋め込みモードを使用できます。このコマンドを実行すると、ドリルビットサービスが自動的に開始されます。

コマンド: ./bin/drill-embedded

例を含む2012年初心者向けのssisチュートリアル

簡単なクエリを実行して、インストールを確認できます。

コマンド: select * from sys.options WHERE type = ‘SYSTEM’ and name like‘security% ’

Apache DrillのWebコンソールを確認するには、Webブラウザーでlocalhost:8047に移動する必要があります。

[クエリ]タブからもクエリを実行できます。

分散モードでドリルを実行するには、クラスターIDを編集し、以下のようにdrill-override.confにZooKeeper情報を追加する必要があります。

次に、各ノードでZooKeeperサービスを開始する必要があります。その後、このコマンドを使用して各ノードでドリルビットサービスを開始する必要があります。

コマンド: ./bin/drillbit.sh start

コマンド: jps

次に、以下のコマンドを使用してドリルシェルを開始します。

これで、分散モードでクラスターに対してクエリを実行できます。

これは、2部構成のApacheDrillブログシリーズの最初のブログ投稿です。シリーズの2番目のブログはもうすぐです。

質問がありますか?コメントセクションでそれらに言及してください。折り返しご連絡いたします。

関連記事:

Apacheドリルパート2のドリルダウン

ApacheSparkとHadoopMapReduce