Hiveデータモデル



Hiveデータモデルには、データベース、テーブル、パーティション、バケットまたはクラスターなどのコンポーネントが含まれています。Hiveは、整数、浮動小数点数、倍精度浮動小数点数、文字列などのプリミティブ型をサポートしています。

Hiveは、Hadoopのデータウェアハウスシステムであり、データの要約、アドホッククエリ、およびHadoop互換ファイルシステムに格納されている大規模なデータセットの分析を容易にします。 Hiveは、データを、テーブル、行、列、パーティションなど、よく理解されているデータベースの概念に構造化します。整数、浮動小数点数、倍精度浮動小数点数、文字列などのプリミティブ型をサポートします。 Hiveは、連想配列、リスト、構造体、およびシリアル化と逆シリアル化APIもサポートしており、データをテーブルに出し入れするために使用されます。





Tableau10でのデータブレンディング

Hiveデータモデルを詳しく見てみましょう

Hiveデータモデル:

Hiveデータモデルには、次のコンポーネントが含まれています。



  • データベース
  • テーブル
  • パーティション
  • バケットまたはクラスター

パーティション:

パーティションとは、「データ」などのパーティション列の値に基づいて、テーブルを粗い部分に分割することを意味します。これにより、データのスライスに対してクエリを実行するのが速くなります

c ++ gotoラベル

Hiveデータモデル

では、パーティションの機能は何ですか?パーティションキーは、データの保存方法を決定します。ここで、Partitionキーの一意の値はそれぞれ、テーブルのパーティションを定義します。パーティションには、便宜上、日付にちなんで名前が付けられています。これは、HDFSの「ブロック分割」に似ています。



バケット:

バケットは、効率的なクエリに使用できるデータに追加の構造を提供します。結合列を含む、同じ列にバケット化された2つのテーブルの結合は、マップ側結合として実装できます。使用済みIDによるバケット化は、ユーザーのセット全体のランダム化されたサンプルで実行することにより、ユーザーベースのクエリをすばやく評価できることを意味します。

質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。

関連記事:

SQLで部分文字列を使用する方法

役立つHiveコマンド