Hiveは、Hadoopのデータウェアハウスシステムであり、データの要約、アドホッククエリ、およびHadoop互換ファイルシステムに格納されている大規模なデータセットの分析を容易にします。 Hiveは、データを、テーブル、行、列、パーティションなど、よく理解されているデータベースの概念に構造化します。整数、浮動小数点数、倍精度浮動小数点数、文字列などのプリミティブ型をサポートします。 Hiveは、連想配列、リスト、構造体、およびシリアル化と逆シリアル化APIもサポートしており、データをテーブルに出し入れするために使用されます。
Tableau10でのデータブレンディング
Hiveデータモデルを詳しく見てみましょう
Hiveデータモデル:
Hiveデータモデルには、次のコンポーネントが含まれています。
- データベース
- テーブル
- パーティション
- バケットまたはクラスター
パーティション:
パーティションとは、「データ」などのパーティション列の値に基づいて、テーブルを粗い部分に分割することを意味します。これにより、データのスライスに対してクエリを実行するのが速くなります
c ++ gotoラベル
では、パーティションの機能は何ですか?パーティションキーは、データの保存方法を決定します。ここで、Partitionキーの一意の値はそれぞれ、テーブルのパーティションを定義します。パーティションには、便宜上、日付にちなんで名前が付けられています。これは、HDFSの「ブロック分割」に似ています。
バケット:
バケットは、効率的なクエリに使用できるデータに追加の構造を提供します。結合列を含む、同じ列にバケット化された2つのテーブルの結合は、マップ側結合として実装できます。使用済みIDによるバケット化は、ユーザーのセット全体のランダム化されたサンプルで実行することにより、ユーザーベースのクエリをすばやく評価できることを意味します。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。
関連記事:
SQLで部分文字列を使用する方法