データサイエンスとは何ですか?データサイエンスの初心者向けガイド



データサイエンスは人工知能の未来です。データサイエンスとは何か、ビジネスとそのさまざまなライフサイクルフェーズにどのように付加価値を与えることができるかを学びます。

世界がビッグデータの時代に入ると、そのストレージの必要性も高まりました。これは、2010年まで、企業業界にとっての主な課題と懸念事項でした。主な焦点は、データを格納するためのフレームワークとソリューションの構築でした。 Hadoopやその他のフレームワークがストレージの問題を正常に解決すると、焦点はこのデータの処理に移ります。ここでの秘密のソースはデータサイエンスです。ハリウッドのSF映画に見られるすべてのアイデアは、データサイエンスによって実際に実現できます。データサイエンスは人工知能の未来です。したがって、データサイエンスとは何か、そしてデータサイエンスがビジネスにどのように付加価値をもたらすことができるかを理解することは非常に重要です。

Edureka 2019 Tech Career Guideがリリースされました!ガイドの最もホットな仕事の役割、正確な学習パス、業界の見通しなど。 ダウンロード 今。

このブログでは、以下のトピックを取り上げます。





このブログの終わりまでに、データサイエンスとは何か、そして私たちの周りの複雑で大規模なデータセットから意味のある洞察を抽出する上でのその役割を理解できるようになります。データサイエンスに関する詳細な知識を得るには、ライブに登録できます 24時間年中無休のサポートと生涯アクセスを備えたEdurekaによる。

データサイエンスとは何ですか?

データサイエンスは、生データから隠されたパターンを発見することを目的とした、さまざまなツール、アルゴリズム、機械学習の原則を組み合わせたものです。しかし、これは統計学者が何年もやってきたこととどう違うのでしょうか?



答えは、説明と予測の違いにあります。

データアナリストv / sデータサイエンス-Edureka

上の画像からわかるように、データアナリスト通常、データの履歴を処理することによって何が起こっているかを説明します。一方、データサイエンティストは、探索的分析を行ってそこから洞察を発見するだけでなく、さまざまな高度な機械学習アルゴリズムを使用して、将来の特定のイベントの発生を特定します。データサイエンティストは、多くの角度からデータを調べますが、以前は知られていない角度から見ることもあります。



したがって、データサイエンスは主に、予測因果分析、規範的分析(予測と意思決定の科学)、機械学習を利用して意思決定と予測を行うために使用されます。

  • 予測因果分析– 将来の特定のイベントの可能性を予測できるモデルが必要な場合は、予測因果分析を適用する必要があります。たとえば、クレジットでお金を提供している場合、顧客が将来のクレジット支払いを時間どおりに行う可能性はあなたの懸念事項です。ここでは、顧客の支払い履歴に対して予測分析を実行して、将来の支払いが予定どおりに行われるかどうかを予測できるモデルを構築できます。
  • 規範的分析: 独自の決定を行うインテリジェンスと動的パラメーターを使用してモデルを変更する機能を備えたモデルが必要な場合は、そのための規範的な分析が必要です。この比較的新しい分野は、アドバイスを提供することです。言い換えれば、それは予測するだけでなく、処方された行動と関連する結果の範囲を示唆します。
    この最も良い例は、前にも説明したGoogleの自動運転車です。車両によって収集されたデータは、自動運転車のトレーニングに使用できます。このデータに対してアルゴリズムを実行して、インテリジェンスをもたらすことができます。これにより、車はいつ曲がるか、どの道を進むかなどの決定を下すことができます。いつ減速または加速するか。
  • 予測を行うための機械学習 —金融会社のトランザクションデータがあり、将来の傾向を判断するためのモデルを構築する必要がある場合は、機械学習アルゴリズムが最善の策です。これは、教師あり学習のパラダイムに該当します。マシンをトレーニングするためのデータがすでにあるため、監視ありと呼ばれます。たとえば、不正な購入の履歴記録を使用して、不正検出モデルをトレーニングできます。
  • パターン発見のための機械学習 —予測を行うための基礎となるパラメータがない場合、意味のある予測を行うには、データセット内の隠れたパターンを見つける必要があります。グループ化用の事前定義されたラベルがないため、これは教師なしモデルに他なりません。パターン検出に使用される最も一般的なアルゴリズムはクラスタリングです。
    あなたが電話会社で働いていて、地域に塔を置いてネットワークを確立する必要があるとしましょう。次に、クラスタリング手法を使用して、すべてのユーザーが最適な信号強度を確実に受信できるようにするタワーの場所を見つけることができます。

上記のアプローチの割合が、データ分析とデータサイエンスでどのように異なるかを見てみましょう。下の画像でわかるように、データ分析ある程度の記述的分析と予測が含まれます。一方、データサイエンスは、予測的因果分析と機械学習に関するものです。

データサイエンス分析-Edureka

データサイエンスとは正確に何であるかがわかったので、そもそもデータサイエンスが必要だった理由を見つけましょう。

なぜデータサイエンスなのか?

  • 従来、私たちが持っていたデータはほとんどが構造化されており、サイズも小さく、単純なBIツールを使用して分析できました。のデータとは異なりほとんど構造化された従来のシステム、今日、ほとんどのデータは非構造化または半構造化されています。以下の画像のデータトレンドを見てみましょう。2020年までに、データの80%以上が非構造化されることを示しています。
    非構造化データの流れ-Edureka
    このデータは、財務ログ、テキストファイル、マルチメディアフォーム、センサー、機器などのさまざまなソースから生成されます。単純なBIツールでは、この膨大な量と多様なデータを処理することはできません。これが、意味のある洞察を処理、分析、および引き出すための、より複雑で高度な分析ツールとアルゴリズムが必要な理由です。

データサイエンスがこれほど人気になった理由はこれだけではありません。さらに深く掘り下げて、データサイエンスがさまざまなドメインでどのように使用されているかを見てみましょう。

  • 顧客の過去の閲覧履歴、購入履歴、年齢、収入などの既存のデータから、顧客の正確な要件を理解できたらどうでしょうか。以前にもこのすべてのデータがあったことは間違いありませんが、膨大な量と多様なデータがあれば、モデルをより効果的にトレーニングし、より正確に顧客に製品を推奨できます。それはあなたの組織により多くのビジネスをもたらすので、それは驚くべきことではないでしょうか?
  • 別のシナリオを考えて、におけるデータサイエンスの役割を理解しましょう。 意思決定あなたの車があなたを家に追いやる知性を持っていたらどうですか?自動運転車は、レーダー、カメラ、レーザーなどのセンサーからライブデータを収集して、周囲の地図を作成します。このデータに基づいて、高度な機械学習アルゴリズムを使用して、いつスピードアップするか、いつスピードダウンするか、いつ追い越すか、どこで方向転換するかなどの決定を行います。
  • データサイエンスを予測分析でどのように使用できるかを見てみましょう。例として天気予報を見てみましょう。船、航空機、レーダー、衛星からのデータを収集および分析して、モデルを構築できます。これらのモデルは、天気を予測するだけでなく、自然災害の発生を予測するのにも役立ちます。事前に適切な対策を講じ、多くの貴重な命を救うのに役立ちます。

以下のインフォグラフィックを見て、データサイエンスが印象を生み出しているすべてのドメインを見てみましょう。

データサイエンスのユースケース-Edureka

データサイエンティストとは誰ですか?

データサイエンティストにはいくつかの定義があります。簡単に言えば、データサイエンティストは、データサイエンスの芸術を実践する人です。「データサイエンティスト」という用語はデータサイエンティストは、統計であろうと数学であろうと、科学分野やアプリケーションから多くの情報を引き出すという事実を考慮して造られました。

データサイエンティストは何をしますか?

データサイエンティストは、特定の科学分野における強力な専門知識で複雑なデータの問題を解決する人々です。彼らは、数学、統計学、コンピューターサイエンスなどに関連するいくつかの要素を扱います(ただし、これらすべての分野の専門家ではない場合があります)。彼らは、組織の成長と発展に不可欠なソリューションを見つけ、結論に達するために、最新のテクノロジーを多用しています。データサイエンティストは、構造化された形式と構造化されていない形式から利用できる生データと比較して、はるかに有用な形式でデータを提示します。

データサイエンティストの詳細については、次の記事を参照してください。

さらに進んで、BIについて説明しましょう。ビジネスインテリジェンス(BI)についても聞いたことがあると思います。多くの場合、データサイエンスはBIと混同さ​​れます。簡潔で明確なことを述べます理解を深めるのに役立つ2つのコントラスト。みてみましょう。

ビジネスインテリジェンス(BI)とデータサイエンス

  • ビジネスインテリジェンス(BI)は基本的に以前のデータを分析して、ビジネストレンドを説明するための後知恵と洞察を見つけます。ここでBIを使用すると、外部および内部ソースからデータを取得して準備し、クエリを実行して、次のような質問に答えるためのダッシュボードを作成できます。四半期収益分析またはビジネス上の問題。 BIは、近い将来、特定のイベントの影響を評価できます。
  • データサイエンスは、より前向きなアプローチであり、過去または現在のデータを分析し、情報に基づいた意思決定を行うことを目的として将来の結果を予測することに焦点を当てた探索的な方法です。これは、「何」および「どのように」イベントが発生するかについての自由形式の質問に答えます。

いくつかの対照的な機能を見てみましょう。

特徴 ビジネスインテリジェンス(BI) データサイエンス
データソース構造化
(通常はSQL、多くの場合データウェアハウス)
構造化と非構造化の両方

(ログ、クラウドデータ、SQL、NoSQL、テキスト)

アプローチ統計と視覚化統計、機械学習、グラフ分析、神経言語プログラミング(NLP)
フォーカス今昔現在と未来
ツールPentaho、Microsoft BI、QlikView、RRapidMiner、BigML、Weka、R

これがデータサイエンスとは何かについてのすべてでした。次に、データサイエンスのライフサイクルを理解しましょう。

データサイエンスプロジェクトでよくある間違いは、要件を理解せずに、またはビジネス上の問題を適切に組み立てることさえせずに、データの収集と分析に突入することです。したがって、プロジェクトが円滑に機能するように、データサイエンスのライフサイクル全体を通じてすべてのフェーズを実行することが非常に重要です。

データサイエンスのライフサイクル

データサイエンスライフサイクルの主なフェーズの概要は次のとおりです。

データサイエンスのライフサイクル-Edureka


データサイエンスの発見-Edurekaフェーズ1-発見:
プロジェクトを開始する前に、さまざまな仕様、要件、優先順位、および必要な予算を理解することが重要です。あなたは正しい質問をする能力を持っていなければなりません。ここでは、プロジェクトをサポートするために必要なリソースが人、テクノロジー、時間、およびデータの観点から存在するかどうかを評価します。このフェーズでは、ビジネス上の問題を組み立て、テストする初期仮説(IH)を作成する必要もあります。

データサイエンスデータの準備-Edureka

フェーズ2-データの準備: このフェーズでは、プロジェクトの全期間にわたって分析を実行できる分析サンドボックスが必要です。モデリングの前に、データを調査、前処理、および調整する必要があります。さらに、ETLT(抽出、変換、ロード、および変換)を実行して、データをサンドボックスに取得します。以下の統計分析フローを見てみましょう。

データサイエンスのライフサイクル
Rは、データのクリーニング、変換、および視覚化に使用できます。これは、外れ値を見つけて変数間の関係を確立するのに役立ちます。データをクリーンアップして準備したら、探索的データ解析を行います。分析その上に。それを実現する方法を見てみましょう。

フェーズ3-モデル計画: データサイエンスモデルの計画-Edureka ここでは、変数間の関係を描画するための方法と手法を決定します。これらの関係は、次のフェーズで実装するアルゴリズムのベースを設定します。さまざまな統計式と視覚化ツールを使用して、探索的データ分析(EDA)を適用します。

Javaのスタックとヒープ

さまざまなモデル計画ツールを見てみましょう。

データサイエンスのモデル計画ツール-Edureka

  1. R モデリング機能の完全なセットを備えており、解釈モデルを構築するための優れた環境を提供します
  2. SQLAnalysisサービス 一般的なデータマイニング機能と基本的な予測モデルを使用して、データベース内分析を実行できます。
  3. SAS /アクセス Hadoopからデータにアクセスするために使用でき、反復可能で再利用可能なモデルフロー図を作成するために使用されます。

多くのツールが市場に出回っていますが、Rが最も一般的に使用されるツールです。

これで、データの性質についての洞察を得て、使用するアルゴリズムを決定しました。次の段階では、適用するアルゴリズムとモデルを構築します。

データサイエンスモデル構築-Edurekaフェーズ4-モデル構築: このフェーズでは、トレーニングとテストの目的でデータセットを開発します。ここでy既存のツールがモデルの実行に十分であるか、それともより堅牢な環境(高速で並列処理など)が必要かを検討する必要があります。 モデルを構築するために、分類、関連付け、クラスタリングなどのさまざまな学習手法を分析します。

以下のツールを使用してモデル構築を実現できます。

データサイエンスのモデル構築ツール

フェーズ5—運用化: データサイエンスの運用化-Edureka このフェーズでは、最終レポート、ブリーフィング、コード、および技術文書を提供します。さらに、パイロットプロジェクトがリアルタイムの実稼働環境で実装されることもあります。これにより、完全に展開する前に、パフォーマンスおよびその他の関連する制約を小規模に明確に把握できます。


データサイエンスにおけるコミュニケーション-Edurekaフェーズ6-結果の伝達:
ここで、最初のフェーズで計画した目標を達成できたかどうかを評価することが重要です。したがって、最後のフェーズでは、すべての主要な調査結果を特定し、利害関係者に連絡して、結果がプロジェクトの成功または失敗は、フェーズ1で開発された基準に基づいています。

ここで、ケーススタディを取り上げて、上記のさまざまなフェーズについて説明します。

ケーススタディ:糖尿病予防

糖尿病の発生を予測し、事前に適切な対策を講じることができたらどうでしょうか。
このユースケースでは、前述のライフサイクル全体を利用して糖尿病の発生を予測します。さまざまな手順を実行してみましょう。

ステップ1:

  • 最初、病歴に基づいてデータを収集しますフェーズ1で説明した患者のデータ。以下のサンプルデータを参照できます。

データサイエンスのサンプルデータ-Edureka

  • ご覧のとおり、以下のようなさまざまな属性があります。

属性:

  1. npreg –妊娠した回数
  2. ブドウ糖–血漿ブドウ糖濃度
  3. bp –血圧
  4. 皮膚–上腕三頭筋の皮膚の厚さ
  5. bmi –ボディマス指数
  6. ped –糖尿病の血統機能
  7. 年齢–年齢
  8. 収入–収入

ステップ2:

  • ここで、データを取得したら、データ分析のためにデータをクリーンアップして準備する必要があります。
  • このデータには、欠落した値、空白の列、突然の値、誤ったデータ形式など、クリーンアップする必要のある多くの不整合があります。
  • ここでは、データをさまざまな属性の下で1つのテーブルに整理し、より構造化されたように見せています。
  • 以下のサンプルデータを見てみましょう。

データサイエンスの一貫性のないデータ-Edureka

このデータには多くの矛盾があります。

  1. コラム内 npreg 、「one」はで書かれています言葉、一方、1のような数値形式である必要があります。
  2. 列に bp 値の1つは6600ですが、これは不可能です(少なくとも人間にとっては) bpはそのような巨大な値に達することができないので。
  3. あなたが見ることができるように 所得 列は空白であり、糖尿病の予測にも意味がありません。したがって、ここに置くのは冗長であり、テーブルから削除する必要があります。
  • したがって、外れ値を削除し、null値を埋め、データ型を正規化することにより、このデータをクリーンアップして前処理します。覚えているかと思いますが、これはデータの前処理である2番目のフェーズです。
  • 最後に、分析に使用できる以下に示すようなクリーンなデータを取得します。

データサイエンスの一貫したデータ-Edureka

ステップ3:

Java文字列分割複数の区切り文字

次に、フェーズ3で前述したように分析を行います。

  • まず、データを分析サンドボックスにロードし、さまざまな統計関数を適用します。たとえば、Rには次のような機能があります 説明します これにより、欠落している値と一意の値の数がわかります。また、平均値、中央値、範囲、最小値、最大値などの統計情報を提供する要約関数を使用することもできます。
  • 次に、ヒストグラム、折れ線グラフ、箱ひげ図などの視覚化手法を使用して、データの分布について公正なアイデアを取得します。

データサイエンスの視覚化-Edureka

ステップ4:

ここで、前のステップから得られた洞察に基づいて、この種の問題に最適なのは決定木です。方法を見てみましょう?

  • 以来、私たちはすでに次のような分析のための主要な属性を持っています npreg、bmi 、などなので、使用しますを構築するための教師あり学習手法こちらのモデル。
  • さらに、決定木は、次のようなすべての属性を一度に考慮に入れるため、特に使用しました。線形関係および非線形関係を持つ関係。私たちの場合、次の間に線形関係があります npreg そして 年齢、 一方、間の非線形関係 npreg そして ped
  • デシジョンツリーモデルは、属性のさまざまな組み合わせを使用してさまざまなツリーを作成し、最終的に最大の効率で実装できるため、非常に堅牢です。

デシジョンツリーを見てみましょう。

デザインツリーデータセット

ここで、最も重要なパラメータはブドウ糖のレベルであるため、それがルートノードです。ここで、現在のノードとその値によって、次に重要なパラメーターを決定します。それは私たちが次の点で結果を得るまで続きます pos または ネガ 。 Posは糖尿病になる傾向が正であることを意味し、negは糖尿病になる傾向が負であることを意味します。

デシジョンツリーの実装について詳しく知りたい場合は、このブログを参照してください。

ステップ5:

このフェーズでは、小さなパイロットプロジェクトを実行して、結果が適切かどうかを確認します。また、パフォーマンスの制約がある場合はそれを探します。結果が正確でない場合は、モデルを再計画して再構築する必要があります。

ステップ6:

プロジェクトが正常に実行されたら、完全な展開のために出力を共有します。

データサイエンティストであることは、口で言うほど簡単ではありません。それでは、データサイエンティストになるために必要なものをすべて見てみましょう。データサイエンティストには基本的にスキルが必要です以下に示すように3つの主要な領域から。

データサイエンススキル-Edureka

上の画像でわかるように、さまざまなハードスキルとソフトスキルを習得する必要があります。あなたは上手である必要があります 統計学 そして 数学 データを分析および視覚化する。言うまでもなく、 機械学習 データサイエンスの中心を形成し、それが得意である必要があります。また、あなたはしっかりした理解を持っている必要があります ドメイン あなたはビジネス上の問題を明確に理解するために働いています。あなたの仕事はここで終わりではありません。あなたは良いものを必要とする様々なアルゴリズムを実装することができるはずです コーディング スキル。最後に、特定の重要な決定を行ったら、それらを利害関係者に提供することが重要です。とても良い コミュニケーション 間違いなくあなたのスキルにブラウニーポイントを追加します。

データサイエンスとは何か、そしてブログで説明したすべてのことを説明するこのデータサイエンスのビデオチュートリアルをご覧になることをお勧めします。どうぞ、ビデオを楽しんで、あなたの考えを教えてください。

データサイエンスとは何ですか?データサイエンスコース–初心者向けのデータサイエンスチュートリアル|エドゥレカ

このEdurekaデータサイエンスコースのビデオでは、データサイエンスの必要性、データサイエンスとは何か、ビジネスでのデータサイエンスの使用例、BIとデータサイエンス、データ分析ツール、データサイエンスのライフサイクル、およびデモについて説明します。

結局のところ、未来はデータサイエンティストのものであると言っても間違いではありません。 2018年末までに、約100万人のデータサイエンティストが必要になると予測されています。ますます多くのデータが重要なビジネス上の意思決定を推進する機会を提供します。それはまもなく、私たちの周りのデータで溢れかえっている世界の見方を変えるでしょう。したがって、データサイエンティストは、最も複雑な問題を解決するための高度なスキルと意欲を備えている必要があります。

私のブログを楽しんで、データサイエンスとは何かを理解していただければ幸いです。私たちをチェックしてください ここでは、インストラクター主導のライブトレーニングと実際のプロジェクトの経験が付属しています。