Apache Hadoopは、ビッグデータに投資する組織にとってすぐに選択されるテクノロジーになり、次世代のデータアーキテクチャを強化しています。 Hadoopがスケーラブルなデータプラットフォームと計算エンジンの両方として機能することで、データサイエンスは、オンライン製品の推奨、自動化された不正検出、顧客の感情分析などの応用データソリューションにより、エンタープライズイノベーションの中心として再び浮上しています。
この記事では、データサイエンスの概要と、大規模なデータサイエンスプロジェクトでHadoopを活用する方法について説明します。
Hadoopはデータサイエンティストにとってどのように役立ちますか?
Hadoopはデータサイエンティストにとって恩恵です。 Hadoopがデータサイエンティストの生産性の向上にどのように役立つかを見てみましょう。 Hadoopには、すべてのデータを1か所から保存および取得できる独自の機能があります。このようにして、次のことが実現できます。
- すべてのデータをRAW形式で保存する機能
- データサイロコンバージェンス
- データサイエンティストは、組み合わされたデータ資産の革新的な使用法を見つけるでしょう。
Hadoopのパワーの鍵:
- 時間とコストの削減– Hadoopは、大規模なデータ製品を構築する時間とコストを劇的に削減するのに役立ちます。
- 計算はデータと同じ場所にあります– データと計算システムは、連携するようにコード署名されています。
- 大規模で手頃な価格– 「コモディティ」ハードウェアノードを使用でき、自己修復機能を備え、大規模なデータセットのバッチ処理に優れています。
- 1回の書き込みと複数回の読み取り用に設計– ランダムな書き込みはなく、ハードドライブの最小シーク用に最適化
なぜデータサイエンスでHadoopを使用するのですか?
理由#1: 大規模なデータセットを探索する
第一の理由は、 大規模なデータセットを探索する Hadoopと直接 Hadoopの統合 の中に データ分析フロー 。
これは、次のような単純な統計を利用することで実現されます。
- 平均
- 中央値
- 分位数
- 前処理:grep、regex
アドホックサンプリング/フィルタリングを使用して、 ランダム:置換の有無にかかわらず、一意のキーとK分割交差検定によるサンプル。
理由#2:大規模なデータセットをマイニングする機能
大規模なデータセットを使用したアルゴリズムの学習には、独自の課題があります。課題は次のとおりです。
- データはメモリに収まりません。
- 学習にはもっと長い時間がかかります。
Hadoopを使用する場合、Hadoopクラスター内のノード間でデータを分散するなどの機能を実行し、分散/並列アルゴリズムを実装できます。推奨事項については、代替最小二乗アルゴリズムを使用でき、クラスタリングにはK-Meansを使用できます。
理由#3:大規模なデータ準備
データサイエンスの作業の80%が「データの準備」に関係していることは誰もが知っています。 Hadoopは、大規模なデータセットのバッチ準備とクリーンアップに最適です。
理由#4:データ主導のイノベーションを加速する:
従来のデータアーキテクチャには、速度に対する障壁があります。 RDBMSは 書き込み時のスキーマ したがって、変更には費用がかかります。それはまた 高いバリア データ主導のイノベーションのために。
Hadoopは 「読み取りのスキーマ」 つまり、 イノベーションへのより速い時間 したがって、 低バリア データ主導のイノベーションについて。
したがって、Hadoop with DataScienceが必要な4つの主な理由を要約すると次のようになります。
- 大規模なデータセットをマイニングする
- 完全なデータセットを使用したデータ探索
- 大規模な前処理
- より高速なデータ駆動サイクル
したがって、組織はHadoopを活用して、データをマイニングし、そこから有用な結果を収集できることがわかります。
質問がありますか?コメント欄にご記入ください。折り返しご連絡いたします。
例を使用したJavaのMVCアーキテクチャ
関連記事: