ビッグデータチュートリアル
ビッグデータ、今まで聞いたことがありませんか?私はあなたが持っていると確信しています。過去4〜5年間で、誰もがビッグデータについて話し合っています。しかし、このビッグデータとは正確に何であるか、それが私たちの生活にどのように影響を与えているのか、そして組織が専門家を探している理由を本当に知っていますか? ?このビッグデータチュートリアルでは、ビッグデータに関する完全な洞察を提供します。
以下は、このビッグデータチュートリアルで取り上げるトピックです。
- ビッグデータの物語
- ビッグデータの推進要因
- ビッグデータとは?
- ビッグデータの特徴
- ビッグデータの種類
- ビッグデータの例
- ビッグデータの応用
- ビッグデータの課題
このビッグデータチュートリアルを短編小説から始めましょう。
ビッグデータの物語
昔、人々は馬車で村から村へと移動していましたが、時が経つにつれ、村は町になり、人々は広がりました。ある町から別の町への移動距離も長くなりました。それで、荷物と一緒に町の間を移動することが問題になりました。突然、ある賢い仲間が提案しました。この問題を解決するには、馬をもっと手入れして餌をやる必要があります。この解決策を見ると、それほど悪くはありませんが、馬は象になることができると思いますか?そうは思いません。別の賢い人は、1頭の馬がカートを引く代わりに、4頭の馬が同じカートを引くようにしようと言いました。このソリューションについてどう思いますか?それは素晴らしい解決策だと思います。今では、人々はより短い時間で長距離を移動でき、さらに多くの荷物を運ぶことができます。
同じ概念がビッグデータにも当てはまります。ビッグデータによると、今日まで、データの量はかなり限られていたため、サーバーにデータを保存しても問題ありませんでした。また、このデータを処理する時間も問題ありませんでした。しかし現在、この現在の技術の世界では、データの増加が速すぎて、人々はデータに何度も依存しています。また、データの増加速度に伴い、どのサーバーにもデータを保存できなくなりつつあります。
ビッグデータチュートリアルに関するこのブログを通じて、従来のシステムでは保存と処理に失敗しているビッグデータのソースを調べてみましょう。
ビッグデータの推進要因
地球上のデータの量は、多くの理由で指数関数的に増加しています。さまざまな情報源と私たちの日々の活動は、多くのデータを生成します。ウェブの発明により、全世界がオンラインになり、私たちが行うすべてのことはデジタルの痕跡を残しています。スマートオブジェクトがオンラインになると、データの増加率は急速に増加しました。ビッグデータの主なソースは、ソーシャルメディアサイト、センサーネットワーク、デジタル画像/ビデオ、携帯電話、購入取引記録、Webログ、医療記録、アーカイブ、軍事監視、eコマース、複雑な科学研究などです。これらの情報はすべて、約数千億バイトのデータに相当します。 2020年までに、データ量は約40ゼッタバイトになります。これは、地球上のすべての砂粒に75を掛けたものに相当します。
ビッグデータとは?
ビッグデータは、大規模で複雑なデータセットのコレクションに使用される用語であり、利用可能なデータベース管理ツールや従来のデータ処理アプリケーションを使用して保存および処理することは困難です。課題には、このデータのキャプチャ、キュレーション、保存、検索、共有、転送、分析、および視覚化が含まれます。
ソルトスタックvsパペットvsシェフ
ビッグデータの特徴
ビッグデータを定義する5つの特性は、ボリューム、速度、多様性、正確性、価値です。
ボリューム
ボリュームとは「データの量」を指し、非常に速いペースで日々増加しています。人間、機械、およびソーシャルメディア自体でのそれらの相互作用によって生成されるデータのサイズは膨大です。研究者は、2020年までに40ゼッタバイト(40,000エクサバイト)が生成されると予測しています。これは、2005年から300倍の増加です。
速度
速度は、さまざまなソースが毎日データを生成するペースとして定義されます。このデータの流れは大規模で継続的です。現在、モバイルの1日あたりのアクティブユーザー数は10億3000万人(Facebook DAU)で、これは前年比22%の増加です。これは、ソーシャルメディアでのユーザー数の増加と、データが毎日生成される速度を示しています。速度を処理できれば、リアルタイムのデータに基づいて洞察を生成し、意思決定を行うことができます。
バラエティ
ビッグデータに貢献しているソースはたくさんあるので、それらが生成するデータのタイプは異なります。構造化、半構造化、または非構造化が可能です。したがって、毎日生成されるさまざまなデータがあります。以前はExcelやデータベースからデータを取得していましたが、現在は下の画像に示すように、画像、音声、動画、センサーデータなどの形式でデータが提供されています。したがって、このようなさまざまな非構造化データは、データのキャプチャ、保存、マイニング、分析で問題を引き起こします。
多様性
信憑性とは、データの不整合や不完全性のために利用可能なデータの疑わしいデータまたは不確実性を指します。下の画像では、テーブルに欠落している値がほとんどないことがわかります。また、いくつかの値を受け入れるのは困難です。たとえば、3行目の最小値は15000であり、不可能です。この矛盾と不完全さは真実です。
利用可能なデータは、乱雑になり、信頼するのが困難になる場合があります。ビッグデータの形式が多いため、ハッシュタグ、略語、タイプミス、口語的なスピーチを含むTwitter投稿のように、品質と正確性を制御することは困難です。多くの場合、データの品質と精度が不足しているのは、ボリュームが原因です。- データの不確実性のため、ビジネスリーダーの3人に1人は、意思決定に使用する情報を信頼していません。
- 調査では、回答者の27%が自分のデータのどれだけが不正確であるかわからないことがわかりました。
- データ品質が悪いと、米国経済は年間約3.1兆ドルの損失を被ります。
値
ボリューム、速度、多様性、および正確性について説明した後、ビッグデータ、つまり価値を検討する際に考慮すべき別のVがあります。大きなものにアクセスできることはすべてうまくいっていますデータだが私たちがそれを価値に変えることができない限り、それは役に立たない。つまり、それを価値に変えることで、ビッグデータを分析している組織の利益に追加されるのでしょうか。組織はビッグデータに取り組んでおり、高いROI(投資収益率)を達成していますか?それがビッグデータに取り組むことによって彼らの利益を増やさない限り、それは役に立たない。
ビッグデータの詳細については、以下のビッグデータビデオをご覧ください。
初心者のためのビッグデータチュートリアル|ビッグデータとは|エドゥレカ
バラエティで説明したように、毎日生成されるさまざまなタイプのデータがあります。それでは、データの種類を理解しましょう。
ビッグデータの種類
ビッグデータには次の3つのタイプがあります。
- 構造化
- 半構造化
- 非構造化
構造化
固定形式で保存および処理できるデータは、構造化データと呼ばれます。リレーショナルデータベース管理システム(RDBMS)に格納されているデータは、「構造化」データの一例です。スキーマが固定されているため、構造化データの処理は簡単です。構造化照会言語(SQL)は、このような種類のデータを管理するためによく使用されます。
半構造化
半構造化データは、データモデルの正式な構造、つまりリレーショナルDBMSのテーブル定義を持たないタイプのデータですが、タグやその他のマーカーなどの組織プロパティを備えているため、セマンティック要素を簡単に分離できます。分析します。 XMLファイルまたはJSONドキュメントは、半構造化データの例です。
非構造化
形状が不明でRDBMSに保存できず、構造化形式に変換しないと分析できないデータを非構造化データと呼びます。テキストファイルや、画像、音声、動画などのマルチメディアコンテンツは、非構造化データの例です。非構造化データは他のデータよりも急速に成長していると専門家は言います。組織内のデータの80%は非構造化データです。
これまで、ビッグデータの紹介について説明してきました。さらに、このビッグデータチュートリアルでは、ビッグデータの例、アプリケーション、および課題について説明します。
ビッグデータの例
毎日、数百万バイトのデータをアップロードしています。世界のデータの90%は過去2年間に作成されました。
- ウォルマートは 100万 1時間ごとの顧客トランザクション。
- Facebookの保存、アクセス、分析 30ペタバイト以上 ユーザー生成データの。
- 2億3000万以上 ツイートの数は毎日作成されます。
- より多い 50億 人々は世界中の携帯電話で電話、テキストメッセージ、ツイート、ブラウジングを行っています。
- YouTubeユーザーがアップロード 48時間 その日の毎分新しいビデオの。
- アマゾンは処理します 1,500万 顧客は、製品を推奨するために1日あたりのユーザーデータのストリームをクリックします。
- 2940億 メールは毎日送信されます。サービスはこのデータを分析してスパムを見つけます。
- 現代の車は 100個のセンサー 燃料レベルやタイヤ空気圧などを監視する各車両は、大量のセンサーデータを生成します。
ビッグデータの応用
ビッグデータアプリケーションの恩恵を受けている人々について話さずにデータについて話すことはできません。今日のほとんどすべての業界は、ビッグデータアプリケーションを何らかの方法で活用しています。
- よりスマートなヘルスケア :ペタバイト単位の患者のデータを利用して、組織は意味のある情報を抽出し、患者の悪化状態を事前に予測できるアプリケーションを構築できます。
- テレコム :電気通信セクターは、情報を収集して分析し、さまざまな問題の解決策を提供します。ビッグデータアプリケーションを使用することにより、通信会社は、ネットワークが過負荷になったときに発生するデータパケット損失を大幅に削減し、顧客にシームレスな接続を提供することができました。
- 小売 :小売業はマージンが最も狭いものがいくつかあり、ビッグデータの最大の受益者の1つです。小売業でビッグデータを使用することの利点は、消費者の行動を理解することです。 Amazonのレコメンデーションエンジンは、消費者の閲覧履歴に基づいてレコメンデーションを提供します。
- 交通規制 :世界の多くの都市にとって、交通渋滞は大きな課題です。都市の人口密度が高まるにつれ、データとセンサーを効果的に使用することが、トラフィックをより適切に管理するための鍵となります。
- 製造 :製造業のビッグデータを分析することで、コンポーネントの欠陥を減らし、製品の品質を向上させ、効率を高め、時間とお金を節約できます。
- 検索品質 :グーグルから情報を抽出するたびに、同時にそのデータを生成しています。 Googleはこのデータを保存し、検索品質を向上させるために使用します。
誰かが正しく言った: 「庭のすべてがバラ色というわけではありません!」 。 これまで、このビッグデータチュートリアルでは、ビッグデータのバラ色の写真を紹介しました。しかし、ビッグデータを活用するのが非常に簡単だったとしたら、すべての組織がビッグデータに投資すると思いませんか?事前に申し上げておきますが、そうではありません。ビッグデータを使用する場合、いくつかの課題が発生します。
ビッグデータとそのさまざまな機能に精通しているので、ビッグデータチュートリアルに関するこのブログの次のセクションでは、ビッグデータが直面する主要な課題のいくつかに光を当てます。
ビッグデータの課題
ビッグデータに伴ういくつかの課題をお話ししましょう。
- データ品質 –ここでの問題は4ですthつまり、信憑性。ここのデータは非常に乱雑で、一貫性がなく、不完全です。ダーティデータは、米国の企業に毎年6000億ドルの費用がかかります。
- 発見 –ビッグデータに関する洞察を見つけることは、干し草の山から針を見つけるようなものです。非常に強力なアルゴリズムを使用してペタバイトのデータを分析し、パターンと洞察を見つけることは非常に困難です。
- ストレージ –組織が持つデータが多いほど、データ管理の問題が複雑になる可能性があります。ここで発生する問題は、「どこに保存するか」です。オンデマンドで簡単にスケールアップまたはスケールダウンできるストレージシステムが必要です。
- 分析 –ビッグデータの場合、ほとんどの場合、処理しているデータの種類を認識していないため、そのデータを分析することはさらに困難です。
- セキュリティ –データはサイズが大きいため、安全に保つことは別の課題です。これには、ユーザー認証、ユーザーに基づくアクセスの制限、データアクセス履歴の記録、データ暗号化の適切な使用などが含まれます。
- 才能の欠如– 主要な組織には多くのビッグデータプロジェクトがありますが、十分なドメイン知識を持っている開発者、データサイエンティスト、アナリストの洗練されたチームは依然として課題です。
Hadoop to the Rescue
ビッグデータの課題に対処する救世主がいます–その Hadoop 。 Hadoopは、分散コンピューティング環境での非常に大きなデータセットの保存と処理をサポートするオープンソースのJavaベースのプログラミングフレームワークです。これは、Apache SoftwareFoundationが後援するApacheプロジェクトの一部です。
分散処理を備えたHadoopは、従来のエンタープライズデータウェアハウスよりも効率的に大量の構造化データと非構造化データを処理します。 Hadoopを使用すると、数千のコモディティハードウェアノードを備えたシステムでアプリケーションを実行し、数千テラバイトのデータを処理できます。 Hadoopはオープンソースソフトウェアであり、コモディティハードウェア(パーソナルコンピューター)で実行できるため、組織はHadoopを採用しています。コモディティハードウェアは非常に安価であるため、初期コストの節約は劇的です。組織のデータが増えるにつれて、それを保存するためにその場でコモディティハードウェアを追加する必要があります。したがって、Hadoopは経済的であることが証明されています。さらに、Hadoopの背後には堅牢なApacheコミュニティがあり、その進歩に貢献し続けています。
以前に約束したように、ビッグデータチュートリアルに関するこのブログを通じて、ビッグデータに関する最大限の洞察を提供しました。これでビッグデータチュートリアルは終了です。次のステップは、Hadoopを知り、学ぶことです。私たちは Hadoopチュートリアルのシリーズ 完全なHadoopエコシステムの詳細な知識を提供するブログ。
最高の、ハッピーハドゥーピング!
ビッグデータとは何かを理解したので、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社であるEdurekaが世界中に広がっています。 EdurekaビッグデータHadoop認定トレーニングコースは、小売、ソーシャルメディア、航空、観光、金融の各ドメインでリアルタイムのユースケースを使用して、学習者がHDFS、Yarn、MapReduce、Pig、Hive、HBase、Oozie、Flume、Sqoopのエキスパートになるのに役立ちます。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。
関連記事: