Pigプログラミング:最初のApachePigスクリプトを作成する



このブログ投稿を読んで、最初のApachePigスクリプトを作成してください。 Apache Pigスクリプトは、一連のApachePigコマンドをまとめて実行するために使用されます。

Pigプログラミング:最初のApachePigスクリプトを作成する

私たちの中で 、ApachePigスクリプトの作成方法を学習します。 Apache Pigスクリプトは、一連のApachePigコマンドをまとめて実行するために使用されます。これは、Pigプログラミングでこれを実行しているときに、各コマンドを手動で記述して実行するために費やされる時間と労力を削減するのに役立ちます。それはまたの不可欠な部分です このブログは、最初のApachePigスクリプトの作成に役立つステップバイステップガイドです。

ApachePigスクリプト実行モード

ローカルモード :「ローカルモード」では、ローカルファイルシステムでpigスクリプトを実行できます。この場合、Hadoop HDFSファイルシステムにデータを保存する必要はありません。代わりに、ローカルファイルシステム自体に保存されているデータを操作できます。





MapReduceモード :「MapReduceモード」では、データをHDFSファイルシステムに保存する必要があり、pigスクリプトを使用してデータを処理できます。

MapReduceモードのApachePigスクリプト

データファイルからデータを読み取り、必要な内容を出力として端末に表示することがタスクであるとしましょう。



サンプルデータファイルには、次のデータが含まれています。

情報txtファイル-ApachePigスクリプト-Edureka

「information.txt」という名前でテキストファイルを保存します



サンプルデータファイルには5つの列が含まれています ファーストネーム苗字MobileNo 、および 職業 で区切られています タブキー 。私たちのタスクは、HDFSからこのファイルのコンテンツを読み取り、これらのレコードのすべての列を表示することです。

Pigを使用してこのデータを処理するには、このファイルがApache HadoopHDFSに存在する必要があります。

コマンド :hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

ステップ1: Pigスクリプトを書く

Apache Pigスクリプトファイルを作成して、エディター(geditなど)で開きます。

コマンド :sudo gedit /home/edureka/output.pig

C ++の単純なマージソートプログラム

このコマンドは、edurekaユーザーのホームディレクトリ内に「output.pig」ファイルを作成します。

output.pigファイルにいくつかのPIGコマンドを書いてみましょう。

A = LOAD '/ edureka / information.txt' using PigStorage( '')as(FName:chararray、LName:chararray、MobileNo:chararray、City:chararray、Profession:chararray)B = FOREACH A generate FName、MobileNo、Profession DUMP B

ファイルを保存して閉じます。

  • 最初のコマンドは、ファイル「information.txt」を間接スキーマ(FName、LName、MobileNo、City、Profession)を使用して変数Aにロードします。
  • 2番目のコマンドは、必要なデータを変数Aから変数Bにロードします。
  • 3行目は、端末/コンソールの変数Bの内容を表示します。

ステップ2: ApachePigスクリプトを実行します

PigスクリプトをHDFSモードで実行するには、次のコマンドを実行します。

コマンド :豚/home/edureka/output.pig

実行が終了したら、結果を確認します。以下の画像は、結果とその中間マップおよびreduce関数を示しています。

以下の画像は、スクリプトが正常に実行されたことを示しています。

下の画像は、スクリプトの結果を示しています。

最初のApachePigスクリプトが正常に実行されました。おめでとうございます。

これで、ApachePigスクリプトを作成して実行する方法がわかりました。したがって、次のブログは 方法をカバーします Apache PigでUDF(ユーザー定義関数)を作成する MapReduce / HDFSモードで実行します。

Apache Pigスクリプトを作成して実行したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。

質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。