ビッグデータチュートリアル|ビッグデータについて知っておくべきことすべて|エドゥレカ

ビッグデータチュートリアル

ビッグデータ、今まで聞いたことがありませんか？私はあなたが持っていると確信しています。過去4〜5年間で、誰もがビッグデータについて話し合っています。しかし、このビッグデータとは正確に何であるか、それが私たちの生活にどのように影響を与えているのか、そして組織が専門家を探している理由を本当に知っていますか？？このビッグデータチュートリアルでは、ビッグデータに関する完全な洞察を提供します。

以下は、このビッグデータチュートリアルで取り上げるトピックです。

ビッグデータの物語
ビッグデータの推進要因
ビッグデータとは？
ビッグデータの特徴
ビッグデータの種類
ビッグデータの例
ビッグデータの応用
ビッグデータの課題

ビッグデータチュートリアル-Edureka

このビッグデータチュートリアルを短編小説から始めましょう。

ビッグデータの物語

昔、人々は馬車で村から村へと移動していましたが、時が経つにつれ、村は町になり、人々は広がりました。ある町から別の町への移動距離も長くなりました。それで、荷物と一緒に町の間を移動することが問題になりました。突然、ある賢い仲間が提案しました。この問題を解決するには、馬をもっと手入れして餌をやる必要があります。この解決策を見ると、それほど悪くはありませんが、馬は象になることができると思いますか？そうは思いません。別の賢い人は、1頭の馬がカートを引く代わりに、4頭の馬が同じカートを引くようにしようと言いました。このソリューションについてどう思いますか？それは素晴らしい解決策だと思います。今では、人々はより短い時間で長距離を移動でき、さらに多くの荷物を運ぶことができます。

同じ概念がビッグデータにも当てはまります。ビッグデータによると、今日まで、データの量はかなり限られていたため、サーバーにデータを保存しても問題ありませんでした。また、このデータを処理する時間も問題ありませんでした。しかし現在、この現在の技術の世界では、データの増加が速すぎて、人々はデータに何度も依存しています。また、データの増加速度に伴い、どのサーバーにもデータを保存できなくなりつつあります。

ビッグデータチュートリアルに関するこのブログを通じて、従来のシステムでは保存と処理に失敗しているビッグデータのソースを調べてみましょう。

ビッグデータの推進要因

地球上のデータの量は、多くの理由で指数関数的に増加しています。さまざまな情報源と私たちの日々の活動は、多くのデータを生成します。ウェブの発明により、全世界がオンラインになり、私たちが行うすべてのことはデジタルの痕跡を残しています。スマートオブジェクトがオンラインになると、データの増加率は急速に増加しました。ビッグデータの主なソースは、ソーシャルメディアサイト、センサーネットワーク、デジタル画像/ビデオ、携帯電話、購入取引記録、Webログ、医療記録、アーカイブ、軍事監視、eコマース、複雑な科学研究などです。これらの情報はすべて、約数千億バイトのデータに相当します。 2020年までに、データ量は約40ゼッタバイトになります。これは、地球上のすべての砂粒に75を掛けたものに相当します。

ビッグデータとは？

ビッグデータは、大規模で複雑なデータセットのコレクションに使用される用語であり、利用可能なデータベース管理ツールや従来のデータ処理アプリケーションを使用して保存および処理することは困難です。課題には、このデータのキャプチャ、キュレーション、保存、検索、共有、転送、分析、および視覚化が含まれます。

ソルトスタックvsパペットvsシェフ

ビッグデータの特徴

ビッグデータを定義する5つの特性は、ボリューム、速度、多様性、正確性、価値です。

ボリューム
ボリュームとは「データの量」を指し、非常に速いペースで日々増加しています。人間、機械、およびソーシャルメディア自体でのそれらの相互作用によって生成されるデータのサイズは膨大です。研究者は、2020年までに40ゼッタバイト（40,000エクサバイト）が生成されると予測しています。これは、2005年から300倍の増加です。
速度
速度は、さまざまなソースが毎日データを生成するペースとして定義されます。このデータの流れは大規模で継続的です。現在、モバイルの1日あたりのアクティブユーザー数は10億3000万人（Facebook DAU）で、これは前年比22％の増加です。これは、ソーシャルメディアでのユーザー数の増加と、データが毎日生成される速度を示しています。速度を処理できれば、リアルタイムのデータに基づいて洞察を生成し、意思決定を行うことができます。
バラエティ
ビッグデータに貢献しているソースはたくさんあるので、それらが生成するデータのタイプは異なります。構造化、半構造化、または非構造化が可能です。したがって、毎日生成されるさまざまなデータがあります。以前はExcelやデータベースからデータを取得していましたが、現在は下の画像に示すように、画像、音声、動画、センサーデータなどの形式でデータが提供されています。したがって、このようなさまざまな非構造化データは、データのキャプチャ、保存、マイニング、分析で問題を引き起こします。
多様性
信憑性とは、データの不整合や不完全性のために利用可能なデータの疑わしいデータまたは不確実性を指します。下の画像では、テーブルに欠落している値がほとんどないことがわかります。また、いくつかの値を受け入れるのは困難です。たとえば、3行目の最小値は15000であり、不可能です。この矛盾と不完全さは真実です。
利用可能なデータは、乱雑になり、信頼するのが困難になる場合があります。ビッグデータの形式が多いため、ハッシュタグ、略語、タイプミス、口語的なスピーチを含むTwitter投稿のように、品質と正確性を制御することは困難です。多くの場合、データの品質と精度が不足しているのは、ボリュームが原因です。
- データの不確実性のため、ビジネスリーダーの3人に1人は、意思決定に使用する情報を信頼していません。
- 調査では、回答者の27％が自分のデータのどれだけが不正確であるかわからないことがわかりました。
- データ品質が悪いと、米国経済は年間約3.1兆ドルの損失を被ります。
値
ボリューム、速度、多様性、および正確性について説明した後、ビッグデータ、つまり価値を検討する際に考慮すべき別のVがあります。大きなものにアクセスできることはすべてうまくいっていますデータだが私たちがそれを価値に変えることができない限り、それは役に立たない。つまり、それを価値に変えることで、ビッグデータを分析している組織の利益に追加されるのでしょうか。組織はビッグデータに取り組んでおり、高いROI（投資収益率）を達成していますか？それがビッグデータに取り組むことによって彼らの利益を増やさない限り、それは役に立たない。

ビッグデータの詳細については、以下のビッグデータビデオをご覧ください。

初心者のためのビッグデータチュートリアル|ビッグデータとは|エドゥレカ

バラエティで説明したように、毎日生成されるさまざまなタイプのデータがあります。それでは、データの種類を理解しましょう。

ビッグデータの種類

ビッグデータには次の3つのタイプがあります。

構造化
半構造化
非構造化

構造化
固定形式で保存および処理できるデータは、構造化データと呼ばれます。リレーショナルデータベース管理システム（RDBMS）に格納されているデータは、「構造化」データの一例です。スキーマが固定されているため、構造化データの処理は簡単です。構造化照会言語（SQL）は、このような種類のデータを管理するためによく使用されます。
半構造化
半構造化データは、データモデルの正式な構造、つまりリレーショナルDBMSのテーブル定義を持たないタイプのデータですが、タグやその他のマーカーなどの組織プロパティを備えているため、セマンティック要素を簡単に分離できます。分析します。 XMLファイルまたはJSONドキュメントは、半構造化データの例です。
非構造化
形状が不明でRDBMSに保存できず、構造化形式に変換しないと分析できないデータを非構造化データと呼びます。テキストファイルや、画像、音声、動画などのマルチメディアコンテンツは、非構造化データの例です。非構造化データは他のデータよりも急速に成長していると専門家は言います。組織内のデータの80％は非構造化データです。

これまで、ビッグデータの紹介について説明してきました。さらに、このビッグデータチュートリアルでは、ビッグデータの例、アプリケーション、および課題について説明します。

ビッグデータの例

毎日、数百万バイトのデータをアップロードしています。世界のデータの90％は過去2年間に作成されました。

ウォルマートは 100万 1時間ごとの顧客トランザクション。
Facebookの保存、アクセス、分析 30ペタバイト以上 ユーザー生成データの。
2億3000万以上 ツイートの数は毎日作成されます。
より多い 50億 人々は世界中の携帯電話で電話、テキストメッセージ、ツイート、ブラウジングを行っています。
YouTubeユーザーがアップロード 48時間 その日の毎分新しいビデオの。
アマゾンは処理します 1,500万 顧客は、製品を推奨するために1日あたりのユーザーデータのストリームをクリックします。
2940億 メールは毎日送信されます。サービスはこのデータを分析してスパムを見つけます。
現代の車は 100個のセンサー 燃料レベルやタイヤ空気圧などを監視する各車両は、大量のセンサーデータを生成します。

ビッグデータの応用

ビッグデータアプリケーションの恩恵を受けている人々について話さずにデータについて話すことはできません。今日のほとんどすべての業界は、ビッグデータアプリケーションを何らかの方法で活用しています。

よりスマートなヘルスケア ：ペタバイト単位の患者のデータを利用して、組織は意味のある情報を抽出し、患者の悪化状態を事前に予測できるアプリケーションを構築できます。

テレコム ：電気通信セクターは、情報を収集して分析し、さまざまな問題の解決策を提供します。ビッグデータアプリケーションを使用することにより、通信会社は、ネットワークが過負荷になったときに発生するデータパケット損失を大幅に削減し、顧客にシームレスな接続を提供することができました。

小売：小売業はマージンが最も狭いものがいくつかあり、ビッグデータの最大の受益者の1つです。小売業でビッグデータを使用することの利点は、消費者の行動を理解することです。 Amazonのレコメンデーションエンジンは、消費者の閲覧履歴に基づいてレコメンデーションを提供します。

交通規制 ：世界の多くの都市にとって、交通渋滞は大きな課題です。都市の人口密度が高まるにつれ、データとセンサーを効果的に使用することが、トラフィックをより適切に管理するための鍵となります。

製造：製造業のビッグデータを分析することで、コンポーネントの欠陥を減らし、製品の品質を向上させ、効率を高め、時間とお金を節約できます。

検索品質 ：グーグルから情報を抽出するたびに、同時にそのデータを生成しています。 Googleはこのデータを保存し、検索品質を向上させるために使用します。

誰かが正しく言った： 「庭のすべてがバラ色というわけではありません！」 。これまで、このビッグデータチュートリアルでは、ビッグデータのバラ色の写真を紹介しました。しかし、ビッグデータを活用するのが非常に簡単だったとしたら、すべての組織がビッグデータに投資すると思いませんか？事前に申し上げておきますが、そうではありません。ビッグデータを使用する場合、いくつかの課題が発生します。

ビッグデータとそのさまざまな機能に精通しているので、ビッグデータチュートリアルに関するこのブログの次のセクションでは、ビッグデータが直面する主要な課題のいくつかに光を当てます。

ビッグデータの課題

ビッグデータに伴ういくつかの課題をお話ししましょう。

データ品質 –ここでの問題は4です^thつまり、信憑性。ここのデータは非常に乱雑で、一貫性がなく、不完全です。ダーティデータは、米国の企業に毎年6000億ドルの費用がかかります。

発見 –ビッグデータに関する洞察を見つけることは、干し草の山から針を見つけるようなものです。非常に強力なアルゴリズムを使用してペタバイトのデータを分析し、パターンと洞察を見つけることは非常に困難です。

ストレージ –組織が持つデータが多いほど、データ管理の問題が複雑になる可能性があります。ここで発生する問題は、「どこに保存するか」です。オンデマンドで簡単にスケールアップまたはスケールダウンできるストレージシステムが必要です。

分析 –ビッグデータの場合、ほとんどの場合、処理しているデータの種類を認識していないため、そのデータを分析することはさらに困難です。

セキュリティ –データはサイズが大きいため、安全に保つことは別の課題です。これには、ユーザー認証、ユーザーに基づくアクセスの制限、データアクセス履歴の記録、データ暗号化の適切な使用などが含まれます。

才能の欠如– 主要な組織には多くのビッグデータプロジェクトがありますが、十分なドメイン知識を持っている開発者、データサイエンティスト、アナリストの洗練されたチームは依然として課題です。

Hadoop to the Rescue

ビッグデータの課題に対処する救世主がいます–その Hadoop 。 Hadoopは、分散コンピューティング環境での非常に大きなデータセットの保存と処理をサポートするオープンソースのJavaベースのプログラミングフレームワークです。これは、Apache SoftwareFoundationが後援するApacheプロジェクトの一部です。

分散処理を備えたHadoopは、従来のエンタープライズデータウェアハウスよりも効率的に大量の構造化データと非構造化データを処理します。 Hadoopを使用すると、数千のコモディティハードウェアノードを備えたシステムでアプリケーションを実行し、数千テラバイトのデータを処理できます。 Hadoopはオープンソースソフトウェアであり、コモディティハードウェア（パーソナルコンピューター）で実行できるため、組織はHadoopを採用しています。コモディティハードウェアは非常に安価であるため、初期コストの節約は劇的です。組織のデータが増えるにつれて、それを保存するためにその場でコモディティハードウェアを追加する必要があります。したがって、Hadoopは経済的であることが証明されています。さらに、Hadoopの背後には堅牢なApacheコミュニティがあり、その進歩に貢献し続けています。

以前に約束したように、ビッグデータチュートリアルに関するこのブログを通じて、ビッグデータに関する最大限の洞察を提供しました。これでビッグデータチュートリアルは終了です。次のステップは、Hadoopを知り、学ぶことです。私たちは Hadoopチュートリアルのシリーズ 完全なHadoopエコシステムの詳細な知識を提供するブログ。

最高の、ハッピーハドゥーピング！

ビッグデータとは何かを理解したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。

質問がありますか？コメント欄にご記入ください。折り返しご連絡いたします。

ビッグデータチュートリアル：ビッグデータについて知っておくべきことすべて！

ビッグデータチュートリアルに関するこのブログでは、ビッグデータの完全な概要、その特性、アプリケーション、およびビッグデータの課題について説明します。