'
コンピュータ、モバイル、ビデオ、ソーシャルメディア、デジタルセンサーなどを介したデジタルデータの急速な拡大と、低コストの処理能力、オープンソースデータベースアプリケーション、およびより広い帯域幅の大きな進歩により、ビジネスの世界全体で大きな関心が高まっています。ビッグデータサイエンスの新たな分野 と分析。
大規模な非構造化ボリュームのビッグデータは、従来の方法で管理および分析するには大きすぎます。今日のデータの膨大な量と速度により、キャプチャ、フィルタリング、保存、分析が非常に困難になっています。これに対処するために、新しいスキルセットと専門知識を必要とする新製品が定期的に開発されています。新しいインフラストラクチャ、プラットフォーム、プロセスを組織に統合できる個人や、大きなビジネス価値のある巨大なインテリジェンスを作成できる新しい分析とアルゴリズムを構築できる個人のニーズが高まっています。詳細については、次のブログ投稿をご覧ください。
さまざまな業界におけるデータサイエンスの関連性:
Data Science&Analyticsは、すべての業界に適用されます。
- eコマース –売り上げを伸ばすパーソナライズおよびレコメンデーションエンジン。
- 広告 –消費者へのターゲットを絞ったリアルタイムの広告配信。
- メディア&エンターテインメント –ユーザーエンゲージメントを最大化するカスタマイズされたコンテンツ開発。
- ソーシャルメディア –サイトの「粘着性」の向上、ユーザーの成長、消費者の感情に基づいて急成長するトレンドを追跡する機能。
- 金融業務 –リスクと不正を最小限に抑える最適化された融資慣行。
- 製薬/バイオインフォマティクス –創薬の改善、脅威となる病気のより効果的な治療、遺伝子工学の強化。
- 健康管理 –健康上のリスク、および病気の予測と早期予防について、医療患者のスコアを向上させます。
- パワー/エネルギー –スマートグリッドインテリジェンス、使用効率、エネルギー節約、ダウンタイムの削減。
- 情報セキュリティー –企業の貴重な情報と資産の盗難検出と監視が大幅に改善されました。
データサイエンスの専門家の主なスキル:
データサイエンスドメインには、次のような専門家が必要です。
- データ分析と意思決定科学を理解している
- ITに精通している
- 強いビジネス洞察力を持っている
- 意思決定者と効果的にコミュニケーションする能力を持っている
続きを読む: データサイエンティストになるために必要なコアスキル。
データサイエンスの実践に関連する一般的なテクノロジー:
Windows8にPHPをインストールする
- データベース
Oracle、SQL Server、Teradata
Cassandra、Hadoop、MapReduce、HBase
Aster、Greenplum、Netezza
- 言語
Ajax、C ++、CSS、HTML5、Java、JavaScript、Perl、Python、Scala
Hive、Pig、Lucene、Mahout、Solr
- 統計と予測
Angoss、MATLAB、R、SAS、SPSS
ARCH、GARCH、SVAR、VAR、VEC、GAUSS
- データの視覚化
QlikView、Spotfire、Tableau、yWorks、R
- BI&レポーティング
BusinessObjects、Cognos、MicroStrategy
Cassandraとは何ですか?
- Apache Cassandraは、多くの商用サーバー間で大量のデータを処理するように設計されたオープンソースの分散データベース管理システムです。
- Cassandraは、単一障害点のない高可用性を提供します。
- Cassandraは、複数のデータセンターにまたがるクラスターを強力にサポートし、非同期マスターレスレプリケーションにより、すべてのクライアントで低遅延の操作を可能にします。
詳細については、に関するブログ投稿をご覧ください。 。
データサイエンスはCassandraをどのように利用していますか?
Cassandraは、毎秒数百の更新と毎秒数万の読み取りで構成されるリアルタイムのワークロードを処理する、低遅延、高スループットのサービスのための分散データベースです。
カサンドラ ユースケース–長所:
PROSは、ソフトウェアに規範的な分析を備えたビッグデータソフトウェア会社であり、顧客がデータを分析し、価格設定、販売、収益管理を最適化するための洞察とガイダンスを得るのを容易にします。
航空会社の可用性を計算するリアルタイムサービスがあり、収益管理データと1秒間に数百回変化する可能性のある在庫レベルを動的に考慮します。
このサービスは、1秒間に数千回クエリされます。これは、数万回のデータルックアップに相当します。このサービスのバックエンドストレージレイヤーはCassandraです。
PROSは、リアルタイムソリューションについて、次の必要性を認識しました。
- 高可用性の分散キャッシュ。
- 簡単にスケーラブル。
- マスターレスアーキテクチャ。
- データセンター間でもほぼリアルタイムのデータレプリケーションを実現します。
- リアルタイムの読み取りと書き込みを処理できます。
PROSは、Oracle Berkeley DB、Oracle Coherence、Terracotta、Voldemort、およびRedisに対してCassandraを評価しました。 ApacheCassandraは非常に簡単にリストのトップになりました。
PROSとCassandra
- PROSは、Cassandraを分散データベースとして使用して、1秒あたり数百の更新と1秒あたり数万の読み取りで構成されるリアルタイムのワークロードを処理する低遅延で高スループットのサービスを提供します。
- たとえば、1秒間に何百回も変化する可能性のある収益管理データと在庫レベルを考慮して、航空会社の可用性を動的に計算するリアルタイムサービスがあります。このサービスは、1秒間に数千回クエリされます。これは、数万のデータ検索に相当します。このサービスのバックエンドストレージレイヤーはCassandraです。一部のSaaSオファリングは、Cassandraをバックエンドストアとして使用して、リアルタイムとHadoopベースのバッチワークロードの組み合わせを処理します。
- HadoopとCassandraについて話すと、彼らはCassandraからデータを取り出してHadoopに入れ、その上でバッチと分析を実行します。その後、Cassandraに戻ります。これは、CassandraのHadoop統合によって実現されます。
- Hadoopジョブは、Cassandraからデータを引き出し、ジョブ固有の変換または分析を適用して、データをCassandraにプッシュします。彼らは、この統合にDatastax(公式のCassandra Maintainer)Enterpriseエディションを使用しておらず、CassandraとのオープンソースのHadoopインストールのみを使用しています。
Cassandraを使用したデータモデリング:
キーバリューストアをリアルタイムレプリケーションとデータ配信でより機能的なものに置き換えることを検討している場合、Dynamo、CAP定理、および結果整合性モデルの調査により、Cassandraがこのモデルに非常によく適合していることがわかります。データモデリング機能についてさらに学ぶにつれて、データの分解に徐々に移行します。
強力なACIDセマンティクスを持つリレーショナルデータベースのバックグラウンドから来ている場合は、結果整合性モデルを理解するために時間をかける必要があります。
カサンドラのアーキテクチャと、それが内部で何をするのかをよく理解してください。 Cassandra 2.0を使用すると、軽量のトランザクションとトリガーを取得できますが、これらは、使い慣れている従来のデータベーストランザクションとは異なります。たとえば、利用可能な外部キー制約はありません。独自のアプリケーションで処理する必要があります。 Cassandraでデータをモデル化する前に、ユースケースとデータアクセスパターンを明確に理解し、利用可能なすべてのドキュメントを読む必要があります。
結論:
Apache Cassandraは急速に進化しており、特にデータモデリングの側面でその機能を学び理解しています。ビッグデータサービスとソリューションに最適な分散型NoSQLデータベースと見なしています。
Edurekaは包括的な データサイエンティストになりたい人のために。このコースでは、データサイエンスの完全な調査を含む、Hadoop、R、機械学習のさまざまな手法について説明します。 Edurekaはまた提供します これは、NoSQLデータベースをマスターするのに役立ちます。このコースは、カサンドラのエキスパートとして成功するための知識とスキルを提供することを目的としています。