Informatica ETL:InformaticaPowerCenterを使用してETLを理解するための初心者向けガイド



Informatica ETLの概念とETLプロセスのさまざまな段階を理解し、従業員データベースに関連するユースケースを実践します。

Informatica ETLの目的は、ソースシステムからデータを抽出してデータウェアハウスに取り込むプロセスをユーザーに提供するだけでなく、さまざまなプラットフォームやアプリケーションからのデータを統合するための共通のプラットフォームをユーザーに提供することです。これは、需要の増加につながっています Informatica ETLについて説明する前に、まずETLが必要な理由を理解しましょう。

なぜETLが必要なのですか?

すべての会社最近はしなければならない さまざまなソースからの大量のデータセットを処理します。このデータは、ビジネス上の意思決定を行うための洞察に満ちた情報を提供するために処理する必要があります。しかし、そのようなデータには次のような課題があります。





  • 大企業は大量のデータを生成し、そのような膨大な量のデータはどのような形式でもかまいません。それらは、複数のデータベースと多くの非構造化ファイルで利用できます。
  • このデータは、シームレスな全体として機能するように、照合、結合、比較、および作成する必要があります。しかし、異なるデータベースはうまく通信しません!
  • 多くの組織がこれらのデータベース間のインターフェイスを実装していますが、次の課題に直面しています。
    • データベースのすべてのペアには、固有のインターフェースが必要です。
    • 1つのデータベースを変更すると、多くのインターフェイスをアップグレードする必要がある場合があります。

以下に、組織のさまざまなデータベースとそれらの相互作用を示します。

組織のさまざまなデータセット-Informatica-ETL-Edureka

組織のさまざまな部門で使用されるさまざまなデータベース



組織内のデータベースのさまざまな相互作用

上記のように、組織はさまざまな部門にさまざまなデータベースを持っている可能性があり、さまざまな相互作用インターフェイスを作成する必要があるため、それらの間の相互作用を実装するのは困難になります。これらの課題を克服するための最善の解決策は、次の概念を使用することです。 データ統合 これにより、さまざまなデータベースや形式のデータが相互に通信できるようになります。次の図は、データ統合ツールがさまざまなデータベース間の通信の共通インターフェイスになる方法を理解するのに役立ちます。

データ統合を介して接続されたさまざまなデータベース



Javaのハッシュセットとは

ただし、データ統合を実行するために使用できるさまざまなプロセスがあります。これらのプロセスの中で、ETLは最も最適で、効率的で、信頼性の高いプロセスです。 ETLを介して、ユーザーはさまざまなソースからデータを取り込むだけでなく、このデータをエンドターゲットに保存する前に、データに対してさまざまな操作を実行できます。

市場で入手可能なさまざまなETLツールの中で、InformaticaPowerCenterは市場をリードするデータ統合プラットフォームです。プラットフォームとアプリケーションの約500,000の組み合わせでテストを行った後、Informatica PowerCenterは、可能な限り幅広い異種の標準、システム、およびアプリケーションで動作します。ここで、InformaticaETLプロセスに含まれる手順を理解しましょう。

情報学ETL | Informaticaアーキテクチャ| InformaticaPowerCenterチュートリアル|エドゥレカ

このEdurekaInformaticaチュートリアルは、InformaticaPowercenterを使用したETLの基本を詳細に理解するのに役立ちます。

Informatica ETLプロセスの手順:

Informatica ETLに関連するさまざまな手順に進む前に、ETLの概要を説明しましょう。 ETLでは、抽出とは、同種または異種のデータソースからデータを抽出すること、変換とは、クエリと分析の目的で適切な形式または構造で保存するためにデータを変換すること、およびデータを最終的なターゲットデータベースにロードすることです。運用データストア、データマート、またはデータウェアハウス。以下の画像は、InformaticaETLプロセスがどのように行われるかを理解するのに役立ちます。

ETLプロセスの概要

上記のように、Informatica PowerCenterは、さまざまなソースからデータをロードして、単一のデータウェアハウスに保存できます。それでは、InformaticaETLプロセスに関連するステップを見てみましょう。

Informatica ETLプロセスには主に4つのステップがあります。ここで、それらを詳細に理解しましょう。

  1. 抽出またはキャプチャ
  2. スクラブまたはクリーン
  3. 変換
  4. ロードとインデックス

1.抽出またはキャプチャ: 以下の画像に示されているように、キャプチャまたは抽出はInformaticaETLプロセスの最初のステップです。これは、選択したデータのサブセットのスナップショットをソースから取得するプロセスであり、データウェアハウスにロードする必要があります。スナップショットは、データベース内のデータの読み取り専用の静的ビューです。抽出プロセスには、次の2つのタイプがあります。

  • 完全な抜粋: データはソースシステムから完全に抽出され、最後に正常に抽出されてからのデータソースへの変更を追跡する必要はありません。
  • インクリメンタル抽出: これは、最後の完全抽出以降に発生した変更のみをキャプチャします。

フェーズ1:抽出またはキャプチャ

2.スクラブまたはクリーン: これは、さまざまなパターン認識とAI技術を使用してソースからのデータをクリーンアップし、転送されるデータの品質を向上させるプロセスです。通常、スペルミス、日付の誤り、フィールドの使用法の誤り、アドレスの不一致、データの欠落、データの重複、不整合などのエラーは次のとおりです。強調表示してから修正または削除このステップで。また、このステップでは、デコード、再フォーマット、タイムスタンプ、変換、キー生成、マージ、エラー検出/ロギング、欠落データの特定などの操作が実行されます。次の画像に示されているように、これはInformaticaETLプロセスの2番目のステップです。

フェーズ2:データのスクラブまたはクリーニング

3.変換: 以下の画像に示されているように、これはInformaticaETLプロセスの3番目で最も重要なステップです。変換は、データをソースシステムの形式からデータウェアハウスのスケルトンに変換する操作です。変換は基本的に、データフローとデータがターゲットにロードされる方法を定義する一連のルールを表すために使用されます。トランスフォーメーションの詳細については、チェックアウトしてください Informaticaでの変換 ブログ。

フェーズ3:変革

4.ロードとインデックス: これは、次の画像に示すように、InformaticaETLプロセスの最終ステップです。この段階では、変換されたデータをウェアハウスに配置し、データのインデックスを作成します。ロードプロセスに基づいて利用可能なデータロードには、主に2つのタイプがあります。

  • 全負荷またはバルク負荷初めて行うときのデータ読み込みプロセス。ジョブは、必要な変換を適用した後、ソーステーブルからデータの全量を抽出し、ターゲットデータウェアハウスにロードします。これは1回限りのジョブ実行であり、その後、変更のみが増分抽出の一部としてキャプチャされます。
  • インクリメンタルロードまたはリフレッシュロード 変更されたデータのみがターゲットで更新され、その後フルロードされます。変更は、作成日または変更日をジョブの最終実行日と比較することで取得されます。ソースから抽出された変更済みデータのみが、既存のデータに影響を与えることなくターゲットで更新されます。

フェーズ4:ロードとインデックス

Informatica ETLプロセスを理解している場合は、このような場合にInformaticaが最適なソリューションである理由を理解するのに適した立場にあります。

Informatica ETLの機能:

すべてのデータ統合およびETL操作について、Informaticaは私たちに提供してくれました Informatica PowerCenter 。ここで、InformaticaETLのいくつかの主要な機能を見てみましょう。

  • GUIを使用して多数の変換ルールを指定する機能を提供します。
  • データを変換するプログラムを生成します。
  • 複数のデータソースを処理します。
  • データの抽出、クレンジング、集約、再編成、変換、およびロード操作をサポートします。
  • データ抽出用のプログラムを自動的に生成します。
  • ターゲットデータウェアハウスの高速ロード。

以下は、InformaticaPowerCenterが使用されている典型的なシナリオの一部です。

  1. データ移行:

ある会社が、その会計部門用に新しい買掛金アプリケーションを購入しました。 PowerCenterは、既存のアカウントデータを新しいアプリケーションに移動できます。次の図は、データ移行にInformaticaPowerCenterを使用する方法を理解するのに役立ちます。 Informatica PowerCenterは、データ移行プロセス中に、税務、会計、およびその他の法的に義務付けられた目的のためにデータ系統を簡単に保存できます。

古い会計アプリケーションから新しいアプリケーションへのデータ移行

  1. アプリケーション統合:

会社Aが会社Bを購入するとします。したがって、統合のメリットを実現するには、B社の課金システムをA社の課金システムに統合する必要があります。これは、InformaticaPowerCenterを使用して簡単に実行できます。次の図は、InformaticaPowerCenterを使用して企業間のアプリケーションを統合する方法を理解するのに役立ちます。

企業間のアプリケーションの統合

  1. データウェアハウジング

データウェアハウスで必要な一般的なアクションは次のとおりです。

  • 分析のために多くのソースからの情報を組み合わせます。
  • 多くのデータベースからデータウェアハウスにデータを移動します。

上記の一般的なケースはすべて、InformaticaPowerCenterを使用して簡単に実行できます。以下に、Informatica PowerCenterを使用して、Oracle、SalesForceなどのさまざまな種類のデータベースからのデータを結合し、InformaticaPowerCenterによって作成された共通のデータウェアハウスに移動していることがわかります。

共通のデータウェアハウスに統合されたさまざまなデータベースからのデータ

  1. ミドルウェア

小売組織が小売アプリケーションにSAPR3を使用し、データウェアハウスとしてSAPBWを使用しているとします。通信インターフェースがないため、これら2つのアプリケーション間の直接通信はできません。ただし、Informatica PowerCenterは、これら2つのアプリケーション間のミドルウェアとして使用できます。以下の画像では、InformaticaPowerCenterがSAPR / 3とSAPBWの間のミドルウェアとしてどのように使用されているかのアーキテクチャを確認できます。 SAP R / 3のアプリケーションは、データをABAPフレームワークに転送し、ABAPフレームワークはデータをABAPフレームワークに転送します。SAP POS(Point of Sale)およびSAP請求書(BOS)。 Informatica PowerCenterは、これらのサービスからSAP Business Warehouse(BW)へのデータの転送を支援します。

SAP RetailArchitectureのミドルウェアとしてのInformaticaPowerCenter

Informatica ETLのいくつかの主要な機能と典型的なシナリオを見てきましたが、InformaticaPowerCenterがETLプロセスに最適なツールである理由を理解していただければ幸いです。ここで、InformaticaETLの使用例を見てみましょう。

ユースケース:2つのテーブルを結合して、単一の詳細テーブルを取得する

部門はさまざまな場所にあるため、従業員に部門ごとの交通手段を提供したいとします。これを行うには、最初に、各従業員が属する部門とその部門の場所を知る必要があります。ただし、従業員の詳細は異なるテーブルに格納されているため、部門の詳細をすべての従業員の詳細を含む既存のデータベースに結合する必要があります。これを行うには、最初に両方のテーブルをInformatica PowerCenterにロードし、データに対してソース修飾子トランスフォーメーションを実行し、最後に詳細をターゲットデータベースにロードします。始めましょう:

ステップ1 PowerCenterDesignerを開きます。

以下は、Informatica PowerCenterDesignerのホームページです。

リポジトリに接続しましょう。リポジトリを構成していない場合、または問題が発生している場合は、 ブログ。

ステップ2: リポジトリを右クリックして、接続オプションを選択します。

接続オプションをクリックすると、以下の画面が表示され、リポジトリのユーザー名とパスワードの入力を求められます。

Javaでのハッシュマップとハッシュテーブルの違い

リポジトリに接続したら、以下のように作業フォルダを開く必要があります。

マッピングの名前を尋ねるプロンプトが表示されます。マッピングの名前を指定して、[OK]をクリックします(名前を付けました m-従業員 )。

ステップ3: 次に、データベースからテーブルをロードします。まず、データベースに接続します。これを行うには、以下に示すように、[ソース]タブと[データベースからインポート]オプションを選択します。

[データベースからインポート]をクリックすると、以下のような画面が表示され、データベースの詳細と、接続用のユーザー名とパスワードを尋ねられます(私はOracleデータベースとHRユーザーを使用しています)。

[接続]をクリックして、データベースに接続します。

ステップ4: 参加したいので 従業員 そして 部門 テーブルを選択し、[OK]をクリックします。
以下に示すように、ソースはマッピングデザイナワークスペースに表示されます。

ステップ5: 同様に、ターゲットテーブルをマッピングにロードします。

ステップ6: 次に、ソース修飾子とターゲットテーブルをリンクしましょう。以下に示すように、ワークスペースの空白部分を右クリックして、[自動リンク]を選択します。

以下は、自動リンクによってリンクされたマッピングです。

ステップ7: 両方のテーブルをソース修飾子にリンクする必要があるため、Departmentテーブルの列を選択し、以下に示すようにソース修飾子にドロップします。

列の値をソース修飾子にドロップします SQ_EMPLOYEES

以下は、更新されたソース修飾子です。

ステップ8: ソース修飾子をダブルクリックして、変換を編集します。

以下に示すように、[変換の編集]ポップアップが表示されます。 [プロパティ]タブをクリックします。

ステップ9: [プロパティ]タブで、[ユーザー定義の結合]行の[値]フィールドをクリックします

次のSQLエディターを取得します。

ステップ10: 入る EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID SQLフィールドの両方のテーブルを結合する条件として、[OK]をクリックします。

ステップ11: 次に、SQLクエリ行をクリックして、以下に示すように結合するSQLを生成します。

次のSQLエディターが表示されます。[SQLの生成]オプションをクリックします。

次のSQLは、前の手順で指定した条件に対して生成されます。 [OK]をクリックします。

ステップ12: [適用]と[OK]をクリックします。

以下は完成したマッピングです。

データをソースからターゲットに転送する方法の設計が完了しました。ただし、実際のデータ転送はまだ行われていないため、PowerCenterワークフローデザインを使用する必要があります。ワークフローを実行すると、ソースからターゲットにデータが転送されます。ワークフローの詳細については、 Informaticaチュートリアル:ワークフロー ブログ

ステップ13: L次に示すように、Wアイコンをクリックしてワークフローマネージャーを起動します。

以下は、ワークフローデザイナのホームページです。

ステップ14: 次に、マッピング用の新しいワークフローを作成しましょう。 [ワークフロー]タブをクリックして、[オプションの作成]を選択します。

以下のポップアップが表示されます。ワークフローの名前を指定して、[OK]をクリックします。

ステップ15 :ワークフローが作成されると、ワークフローマネージャーワークスペースにスタートアイコンが表示されます。

次に、セッションアイコンをクリックしてワークスペースをクリックすることにより、以下に示すように新しいセッションをワークスペースに追加しましょう。

ワークスペースをクリックして、セッションアイコンを配置します。

ステップ16: セッションを追加するときに、上記の手順で作成して保存したマッピングを選択する必要があります。 (私はそれをm-EMPLOYEEとして保存しました)。

以下は、セッションアイコンを追加した後のワークスペースです。

ステップ17 :新しいセッションを作成したので、それを開始タスクにリンクする必要があります。以下に示すように、リンクタスクアイコンをクリックすることでそれを行うことができます。

最初に[スタート]アイコンをクリックしてから、[セッション]アイコンをクリックしてリンクを確立します。

以下は、接続されたワークフローです。

ステップ18: 設計が完了したので、ワークフローを開始しましょう。 [ワークフロー]タブをクリックし、[ワークフローの開始]オプションを選択します。

ワークフローマネージャーがワークフローモニターを起動しています。

ステップ19 :ワークフローを開始すると、ワークフローマネージャーが自動的に起動しますそしてワークフローの実行を監視できます。以下に、ワークフローモニターにワークフローのステータスが表示されていることがわかります。

ステップ20: ワークフローのステータスを確認するには、ワークフローを右クリックして、以下に示すように[実行プロパティの取得]を選択します。

Javaのバイナリ検索アルゴリズム

[ソース/ターゲット統計]タブを選択します。

以下に、変換後にソースとターゲットの間で転送された行の数を示します。

以下に示すように、ターゲットテーブルをチェックして結果を確認することもできます。

このInformaticaETLブログが、Informaticaを使用したETLの概念についての理解を深めるのに役立ち、Informaticaについてさらに学ぶための十分な関心を生み出したことを願っています。

このブログが役に立った場合は、Informaticaチュートリアルブログシリーズもご覧ください。 、 Informaticaチュートリアル:Informaticaの「裏返し」を理解する そして Informaticaの変革:InformaticaPowerCenterの核心 。 Informatica認定の詳細をお探しの場合は、ブログを確認してください。 Informatica認定:知っておくべきことはすべて

すでにInformaticaをキャリアとして採用することを決定している場合は、当社の記事をご覧になることをお勧めします。 コースページ。 EdurekaでのInformatica認定トレーニングでは、インストラクター主導のライブセッションと実際のユースケースを使用した実践的なトレーニングを通じて、Informaticaのエキスパートになります。