Apache Drillは、業界初のスキーマフリーSQLエンジンです。ドリルは世界初のクエリエンジンではありませんが、柔軟性と速度の微妙なバランスをとる最初のエンジンです。ドリルは、数千のノードに拡張し、BI / Analytics環境が必要とするインタラクティブな速度でペタバイトのデータをクエリするように設計されています。
Hive、HBase、MongoDB、ファイルシステム、RDBMSなどのいくつかのデータソースと統合できます。また、Avro、CSV、TSV、PSV、Parquet、Hadoopシーケンスファイルなどの入力形式をDrillで簡単に使用できます。
なぜApacheDrillなのか?
Apache Drillの最大の利点は、データをクエリするときにその場でスキーマを検出できることです。さらに、Tableau、Qlikview、MicroStrategyなどのBIツールと連携して、分析を向上させることができます。
ApacheDrillの価値を要約した業界アナリストからの引用は次のとおりです。
「ドリルはSQL-on-Hadoopだけではありません。それは、SQL-on-pretty-much-anything、即時、そして形式的なものではありません。」
– Andrew Burst、Gigaom Research、2015年1月
ドリルビットは、クラスター内の各ノードで実行されるApacheDrillのデーモンです。クラスター内のすべての通信とmaintaisnクラスターメンバーシップにZooKeeperを使用します。クライアントからの要求を受け入れ、クエリを処理し、結果をクライアントに返す責任があります。クライアントからの要求を受け取るドリルビットは「フォアマン」と呼ばれます。実行プランを生成し、実行フラグメントはクラスターで実行されている他のドリルビットに送信されます。
もう1つの利点は、ドリルの取り付けとセットアップが非常に簡単なことです。 ApacheDrillのインストール方法を学びましょう。
最初のステップは、ドリルパッケージをダウンロードすることです。
配列javaで最大値を見つける
コマンド: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
コマンド: tar -xvf apache-drill-1.5.0.tar.gz
コマンド: ls
次に、.bashrcファイルに環境変数を設定します。
コマンド: sudo gedit .bashrc
エクスポートDRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH:/home/edureka/apache-drill-1.5.0/bin
このコマンドは変更を更新します:
コマンド: ソース.bashrc
次に、drill confディレクトリに移動し、クラスターIDとzookeeperホストとポートを使用してdrill-override.confファイルを編集します。これをローカルクラスターで実行します。
コマンド: cd apache-drill-1.5.0
コマンド: sudo gedit conf / Drill-override.conf
デフォルトでは、DRILL_MAX_DIRECT_MEMORYはdrill-env.shで8 GBになり、メモリに応じて保持する必要があります。
コマンド: sudo gedit conf / Drill-env.sh
ドリルを単一ノードにのみインストールするには、ローカルで実行される埋め込みモードを使用できます。このコマンドを実行すると、ドリルビットサービスが自動的に開始されます。
コマンド: ./bin/drill-embedded
例を含む2012年初心者向けのssisチュートリアル
簡単なクエリを実行して、インストールを確認できます。
コマンド: select * from sys.options WHERE type = ‘SYSTEM’ and name like‘security% ’
Apache DrillのWebコンソールを確認するには、Webブラウザーでlocalhost:8047に移動する必要があります。
[クエリ]タブからもクエリを実行できます。
分散モードでドリルを実行するには、クラスターIDを編集し、以下のようにdrill-override.confにZooKeeper情報を追加する必要があります。
次に、各ノードでZooKeeperサービスを開始する必要があります。その後、このコマンドを使用して各ノードでドリルビットサービスを開始する必要があります。
コマンド: ./bin/drillbit.sh start
コマンド: jps
次に、以下のコマンドを使用してドリルシェルを開始します。
これで、分散モードでクラスターに対してクエリを実行できます。
これは、2部構成のApacheDrillブログシリーズの最初のブログ投稿です。シリーズの2番目のブログはもうすぐです。
質問がありますか?コメントセクションでそれらに言及してください。折り返しご連絡いたします。
関連記事: