Apache Hiveは、Hadoopエコシステムで最も重要なフレームワークの1つであり、その結果、 。このブログでは、UbuntuへのApacheHiveとHiveのインストールについて学習します。
Apache Hiveとは何ですか?
Apache Hive は、分散ストレージシステムに存在する大規模なデータセットのクエリと管理を容易にするデータウェアハウスインフラストラクチャです。これはHadoopの上に構築され、Facebookによって開発されました。 ハイブ と呼ばれるSQLのようなクエリ言語を使用してデータをクエリする方法を提供します HiveQL(Hiveクエリ言語)。
内部的には、コンパイラは翻訳します HiveQL にステートメント MapReduce その後、に送信されるジョブ Hadoopフレームワーク 実行のため。
HiveとSQLの違い:
ハイブ 従来のデータベースと非常によく似ています SQL アクセス。ただし、 ハイブ に基づいています Hadoop そして MapReduce 操作には、いくつかの重要な違いがあります。
Hadoopは長いシーケンシャルスキャンを対象としているため、 ハイブ に基づいています Hadoop 、クエリのレイテンシは非常に高いと予想されます。だということだ ハイブ 従来のRDBMSデータベースで期待できるように、非常に高速な応答時間を必要とするアプリケーションには適していません。
最終的に、 ハイブ は読み取りベースであるため、通常、書き込み操作の割合が高いトランザクション処理には適していません。
Javaのハッシュマップとハッシュテーブル
UbuntuへのHiveのインストール:
以下の手順に従ってインストールしてください Apache Hive Ubuntuの場合:
ステップ1: ダウンロード ハイブタール。
コマンド: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
ステップ2: を抽出します タール ファイル。
コマンド: tar -xzf apache-hive-2.1.0-bin.tar.gz
コマンド: ls
ステップ3: 編集する 「.bashrc」 ユーザーの環境変数を更新するファイル。
コマンド: sudo gedit .bashrc
ファイルの最後に以下を追加します。
#HIVE_HOMEを設定する
エクスポートHIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
export PATH = $ PATH:/home/edureka/apache-hive-2.1.0-bin/bin
また、hadoopパスも設定されていることを確認してください。
以下のコマンドを実行して、同じ端末で変更を機能させます。
コマンド: ソース.bashrc
ステップ4: ハイブのバージョンを確認してください。
メソッドjavascriptとは何ですか
ステップ5: 作成する ハイブ 内のディレクトリ HDFS 。ディレクトリ '倉庫' ハイブに関連するテーブルまたはデータを格納する場所です。
コマンド:
- hdfs dfs -mkdir -p / user / hive / Warehouse
- hdfs dfs -mkdir / tmp
ステップ6: テーブルの読み取り/書き込み権限を設定します。
コマンド:
このコマンドでは、グループに書き込み権限を付与しています。
- hdfs dfs -chmod g + w / user / hive / Warehouse
- hdfs dfs -chmod g + w / tmp
ステップ7: セットする Hadoop のパス h ive-env.sh
コマンド: cd apache-hive-2.1.0-bin /
コマンド: gedit conf / hive-env.sh
以下のスナップショットに示すようにパラメータを設定します。
ステップ8: 編集 hive-site.xml
コマンド: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc:derby:databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = trueJDBCメタストアのJDBC接続文字列。 SSLを使用して接続を暗号化/認証するには、接続URLにデータベース固有のSSLフラグを指定します。たとえば、postgresデータベースの場合はjdbc:postgresql:// myhost / db?ssl = trueです。 hive.metastore.warehouse.dir / user / hive / warehouseウェアハウスのデフォルトデータベースの場所hive.metastore.urisリモートメタストアのThriftURI。メタストアクライアントがリモートメタストアに接続するために使用します。 javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc.EmbeddedDriverJDBCメタストアのドライバークラス名javax.jdo.PersistenceManagerFactoryClassorg.datanucleus.api.jdo.JDOPersistenceManagerFactoryクラスはjdo永続性を実装します
ステップ9: デフォルトでは、Hiveは ダービー データベース。 Derbyデータベースを初期化します。
コマンド: bin / schematool -initSchema -dbType derby
ステップ10 :打ち上げ ハイブ。
コマンド: ハイブ
ステップ11 :Hiveシェルでいくつかのクエリを実行します。
コマンド: データベースを表示
コマンド: テーブルemployee(id文字列、name文字列、dept文字列)を作成し、テキストファイルとして保存された ‘‘で終了する行形式で区切られたフィールド
コマンド: テーブルを表示
ステップ12: 終了するには ハイブ:
コマンド: 出口
Hiveのインストールが完了したので、次のステップは、HiveシェルでHiveコマンドを試すことです。したがって、次のブログ「 HQLの例を含む上位のHiveコマンド 」は、Hiveコマンドを習得するのに役立ちます。
関連記事:
Tableauでパラメータを使用する方法