新時代のクエリエンジンであるAPACHEDRILLのドリルダウン| ブログ

Apache Drillは、業界初のスキーマフリーSQLエンジンです。ドリルは世界初のクエリエンジンではありませんが、柔軟性と速度の微妙なバランスをとる最初のエンジンです。ドリルは、数千のノードに拡張し、BI / Analytics環境が必要とするインタラクティブな速度でペタバイトのデータをクエリするように設計されています。

Hive、HBase、MongoDB、ファイルシステム、RDBMSなどのいくつかのデータソースと統合できます。また、Avro、CSV、TSV、PSV、Parquet、Hadoopシーケンスファイルなどの入力形式をDrillで簡単に使用できます。

なぜApacheDrillなのか？

Apache Drillの最大の利点は、データをクエリするときにその場でスキーマを検出できることです。さらに、Tableau、Qlikview、MicroStrategyなどのBIツールと連携して、分析を向上させることができます。

ApacheDrillの価値を要約した業界アナリストからの引用は次のとおりです。

「ドリルはSQL-on-Hadoopだけではありません。それは、SQL-on-pretty-much-anything、即時、そして形式的なものではありません。」

– Andrew Burst、Gigaom Research、2015年1月

ドリルビットは、クラスター内の各ノードで実行されるApacheDrillのデーモンです。クラスター内のすべての通信とmaintaisnクラスターメンバーシップにZooKeeperを使用します。クライアントからの要求を受け入れ、クエリを処理し、結果をクライアントに返す責任があります。クライアントからの要求を受け取るドリルビットは「フォアマン」と呼ばれます。実行プランを生成し、実行フラグメントはクラスターで実行されている他のドリルビットに送信されます。

Drillbits-Apache-Drill

もう1つの利点は、ドリルの取り付けとセットアップが非常に簡単なことです。 ApacheDrillのインストール方法を学びましょう。

最初のステップは、ドリルパッケージをダウンロードすることです。

配列javaで最大値を見つける

コマンド： wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

コマンド： tar -xvf apache-drill-1.5.0.tar.gz

コマンド： ls

次に、.bashrcファイルに環境変数を設定します。

コマンド： sudo gedit .bashrc

エクスポートDRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH：/home/edureka/apache-drill-1.5.0/bin

このコマンドは変更を更新します：

コマンド： ソース.bashrc

次に、drill confディレクトリに移動し、クラスターIDとzookeeperホストとポートを使用してdrill-override.confファイルを編集します。これをローカルクラスターで実行します。

コマンド： cd apache-drill-1.5.0

コマンド： sudo gedit conf / Drill-override.conf

デフォルトでは、DRILL_MAX_DIRECT_MEMORYはdrill-env.shで8 GBになり、メモリに応じて保持する必要があります。

コマンド： sudo gedit conf / Drill-env.sh

ドリルを単一ノードにのみインストールするには、ローカルで実行される埋め込みモードを使用できます。このコマンドを実行すると、ドリルビットサービスが自動的に開始されます。

コマンド： ./bin/drill-embedded

例を含む2012年初心者向けのssisチュートリアル

簡単なクエリを実行して、インストールを確認できます。

コマンド： select * from sys.options WHERE type = ‘SYSTEM’ and name like‘security％ ’

Apache DrillのWebコンソールを確認するには、Webブラウザーでlocalhost：8047に移動する必要があります。

[クエリ]タブからもクエリを実行できます。

分散モードでドリルを実行するには、クラスターIDを編集し、以下のようにdrill-override.confにZooKeeper情報を追加する必要があります。

次に、各ノードでZooKeeperサービスを開始する必要があります。その後、このコマンドを使用して各ノードでドリルビットサービスを開始する必要があります。

コマンド： ./bin/drillbit.sh start

コマンド： jps

次に、以下のコマンドを使用してドリルシェルを開始します。

これで、分散モードでクラスターに対してクエリを実行できます。

これは、2部構成のApacheDrillブログシリーズの最初のブログ投稿です。シリーズの2番目のブログはもうすぐです。

質問がありますか？コメントセクションでそれらに言及してください。折り返しご連絡いたします。

関連記事：

Apacheドリルパート2のドリルダウン

ApacheSparkとHadoopMapReduce

新時代のクエリエンジンであるApacheDrillのドリルダウン

このApacheDrillチュートリアルでは、Apache Drillクエリエンジンの使用を開始するために必要なすべての情報、Hadoop、ビッグデータ、ApacheSparkの使用法について説明します。

なぜApacheDrillなのか？

カテゴリー

Popular Articles

ビッグデータチュートリアル：ビッグデータについて知っておくべきことすべて！

AWSとAzure：違いは何ですか？

あなたの最初のスマートコントラクトを書く方法は？

Cで奇数と偶数のプログラムを実装する方法

2020年にITランドスケープを混乱させるトップ10テクノロジーあなたが知る必要がある

Pythonでリンクリストを実装する方法は？

HQLの例を含む上位のHiveコマンド

Hadoopおよび関連するビッグデータテクノロジーを備えたMongoDB

PHPでのデータ取得に関するすべて

データ駆動型、キーワード駆動型、ハイブリッドSeleniumフレームワークの構築

Google Cloud Platform（GCP）とは何ですか？ –GCPサービスとGCPアカウントの概要

JavaでWebサービスを作成する方法は？