1日に2.5兆バイトのデータを生成および消費する世界では、組織は、最適な効率を達成するために、データを変換および結合するための新しい方法を探す必要があります。データを組み合わせるそのような方法の1つは Tableauでのデータブレンディング 。
これは、特定の組織のデータサイクルで非常に重要な目的を果たすため、ほとんどの場合、非常に重要なモジュールになります。 。このブログでは、次の概念について説明します。
- Tableauでデータブレンディングが必要なのはなぜですか?
- Tableauのデータブレンディングとは何ですか?
- データ結合とはどう違うのですか?
- ブレンディングの代わりに結合を使用するのはいつですか?
- Tableauでのデータのブレンド
- Tableauでのデータブレンディングの制限
Tableauでデータブレンディングが必要なのはなぜですか?
あなたが 開発者テーブル Salesforceにトランザクションデータが保存され、Accessにクォータデータが保存されているユーザー。結合するデータは異なるデータベースに保存され、各テーブルでキャプチャされるデータの粒度は2つのデータソースで異なるため、データの混合はこのデータを結合するための最良の方法です。
データブレンディングは、次の条件下で役立ちます。
クロスデータベース結合でサポートされていない異なるデータベースのデータを組み合わせる必要があります。
データベース間結合は、キューブ(Oracle Essbaseなど)または一部の抽出専用接続(Google Analyticsなど)への接続をサポートしていません。この場合、分析するデータの個別のデータソースを設定してから、データブレンディングを使用してデータソースを1つのシートに結合します。
データはさまざまな詳細レベルにあります。
1つのデータセットがさまざまなデータを使用してデータをキャプチャする場合があります 詳細レベル つまり、他のデータセットよりも粒度が大きいまたは小さい。
たとえば、トランザクションデータとクォータデータを分析しているとします。トランザクションデータは、すべてのトランザクションをキャプチャする場合があります。ただし、クォータデータは、四半期レベルでトランザクションを集約する場合があります。トランザクション値は各データセットのさまざまな詳細レベルでキャプチャされるため、データブレンディングを使用してデータを組み合わせる必要があります。
Tableauのデータブレンディングとは何ですか?
データブレンディングは、の非常に強力な機能です。 ボード 。複数のデータソースに関連データがあり、それらを1つのビューで一緒に分析する場合に使用されます。これは、あるデータソースのデータのテーブルを別のデータソースのデータの列と補足するデータを組み合わせる方法です。
通常、結合を使用してこの種のデータ結合を実行しますが、データの種類や粒度などの要因によっては、データ混合を使用する方がよい場合があります。
データ結合とはどう違うのですか?
データブレンディングは、従来の左結合をシミュレートします。 2つの主な違いは いつ 結合は集約に関して実行されます。
左結合
左結合を使用してデータを結合すると、結合が実行されるデータベースにクエリが送信されます。左結合を使用すると、左のテーブルのすべての行と、左のテーブルで対応する行が一致する右のテーブルのすべての行が返されます。結合の結果は、Tableauに送り返され、Tableauによって集約されます。
たとえば、次のテーブルがあるとします。共通の列が ユーザーID 、左結合は、左のテーブルからすべてのデータを取得し、右のテーブルからすべてのデータを取得します。これは、各行の左のテーブルに対応する行が一致するためです。
データブレンディング
データブレンディングを使用してデータを結合すると、シートで使用されているデータソースごとにクエリがデータベースに送信されます。集計データを含むクエリの結果は、Tableauによって返送され、結合されます。ビューは、リンクフィールドのディメンションに基づいて、プライマリデータソースのすべての行(左側のテーブル)とセカンダリデータソースの集計行(右側のテーブル)を使用します。
リンクフィールドを変更するか、リンクフィールドを追加して、ブレンドのセカンダリデータソースからのデータの異なる行または追加の行を含め、集計値を変更できます。
たとえば、次のテーブルがあるとします。リンクフィールドが ユーザーID 両方のテーブルで、データをブレンドすると、左側のテーブルからすべてのデータが取得され、左側のテーブルに右側のテーブルのデータが追加されます。この場合、次の理由により、すべての値が結果のテーブルの一部になるとは限りません。
- null値で示されているように、左側のテーブルの行には、右側のテーブルの対応する行の一致がありません。
- アスタリスク(*)で示されているように、右側の表の行には対応する値が複数あります。
上記と同じテーブルがあるが、セカンダリデータソースにという新しいフィールドが含まれているとします。 目的 。繰り返しますが、リンクフィールドが ユーザーID 、データをブレンドすると、左側のテーブルのすべてのデータが取得され、右側のテーブルのデータが追加されます。この場合、次の例に加えて、前の例と同じnull値とアスタリスクが表示されます。
- なぜなら 目的 フィールドはメジャーであり、の行の値が表示されます目的右側のテーブルのデータが左側のテーブルのデータと結合される前に集計されたフィールド。
- 前の例と同様に、左側のテーブルの行には、対応する行がありません。 目的 2番目のnull値で示されるフィールド。
いつ参加を代用するか ブレンディング
1.データをクリーニングする必要があります。
結合後にテーブルが互いに正しく一致しない場合は、テーブルごとにデータソースを設定し、必要なカスタマイズを行います(つまり、列の名前を変更し、列のデータ型を変更し、グループを作成し、計算を使用します)。次に、データブレンディングを使用してデータを結合します。
2.結合によりデータが重複します。
結合後のデータの重複は、さまざまな詳細レベルのデータの症状です。データの重複に気付いた場合は、結合を作成する代わりに、データブレンディングを使用して共通のディメンションでブレンディングします。
3.たくさんのデータがあります。
通常、同じデータベースのデータを結合するには、結合をお勧めします。結合はデータベースによって処理されます。これにより、結合はデータベースのネイティブ機能の一部を活用できます。ただし、大量のデータセットを処理している場合、結合はデータベースに負担をかけ、パフォーマンスに大きな影響を与える可能性があります。この場合、データブレンディングが役立つ場合があります。 Tableauは、データが集約された後にデータの結合を処理するため、結合するデータが少なくなります。組み合わせるデータが少ない場合、一般的にパフォーマンスが向上します。
Tableauでのデータのブレンド
1つのシートで一緒に分析する個別のデータソースにデータがある場合は、データブレンディングを使用できます。 Tableauには、という名前の2つの組み込みデータソースがあります サンプル-スーパーストア そして サンプルコーヒーchain.mdb これは、データの混合を説明するために使用されます。
ステップ1:データに接続し、データソースを設定します
- データセットに接続し、データソースページでデータソースを設定します。私はnbuiltデータソース サンプルコーヒーchain.mdb 、これはMSAccessデータベースファイルであり、データの混合を説明するために使用されます。
- に移動 データ >> 新しいデータソース、2番目のデータセットに接続します。この例では、 サンプル–スーパーストア 情報元。 Tデータソースを設定します。
- シートタブをクリックして、ビューの作成を開始します。
ステップ2:プライマリデータソースを指定する
- プライマリデータソースからビューに少なくとも1つのフィールドをドラッグして、プライマリデータソースとして指定します。の中に データ ペインで、プライマリデータソースとして指定するデータソースをクリックします。この例では、 サンプルコーヒーチェーン が選択されています。
- 次のスクリーンショットは、ファイルで使用可能なさまざまなテーブルと結合を示しています。
javaは文字列から日付を取得します
ステップ3:セカンダリデータソースを指定する
- プライマリデータソースまたはアクティブリンクではないデータソースからのビューで使用されるフィールドは、後続のデータソースをセカンダリデータソースとして自動的に指定します。この場合、サンプルスーパーストア。
ステップ4:データをブレンドする
- これで、共通のディメンションに基づいて両方のソースからのデータを統合できます( 状態 、 この場合)。ディメンション–状態の横に小さなリンク画像が表示されることに注意してください。これは、2つのデータソース間の共通の次元を示しています。
- で棒グラフを作成するとします。 利益率 コラムの棚と 状態 Row Shelfのグラフは、スーパーストアとコーヒーチェーンショップの両方で、州ごとに利益率がどのように変化するかを示しています。
Tableauでのデータブレンディングの制限
- 非加法集計には、次のようなデータブレンディングの制限がいくつかあります。 中央値 、および RAWSQLAGG 。
- データブレンディングは、高粒度でのクエリの速度を低下させます。
- ブレンドデータを使用する計算フィールドで並べ替えようとすると、[並べ替え]ダイアログボックスの[フィールド]ドロップダウンリストに計算フィールドが表示されません。
- キューブデータソースは、Tableauでデータをブレンドするためのプライマリデータソースとしてのみ使用できます。二次データソースとして使用することはできません。
皆さんが今、について公正な考えを持っていることを願っています Tableauでのデータブレンディング このブログから。もっと知識が欲しいですか?心配しないでください。このビデオでは、概念をよりよく理解できます。