MahoutでのファジーK-Meansクラスタリング



このブログでは、ApacheMahoutでのファジーK-Meansクラスタリングについて紹介しています。

ファジーK-Meansは、一般的な単純なクラスタリング手法であるK-meansとまったく同じアルゴリズムです。唯一の違いは、ポイントを1つのクラスターのみに排他的に割り当てるのではなく、2つ以上のクラスター間で何らかのあいまいさや重複が発生する可能性があることです。以下は、ファジーK-Meansを説明する重要なポイントです。





昇順c ++
  • 各ポイントが1つのクラスターに属するハードクラスターを探すK-Meansとは異なり、FuzzyK-Meansはオーバーラップするためにソフトクラスターを探します。
  • ソフトクラスター内の単一のポイントは、各ポイントに対して特定のアフィニティ値を持つ複数のクラスターに属することができます。
  • 親和性は、クラスターの重心からのそのポイントの距離に比例します。
  • K-Meansと同様に、Fuzzy K-Meansは、距離メジャーが定義されており、で表すことができるオブジェクトで機能します。 n- 次元ベクトル空間。

ファジーK-MeansMapReduce Flow

K-MeansのMapReduceフローとFuzzyK-Meansの間に大きな違いはありません。 Mahoutでの両方の実装は似ています。

以下は 重要なパラメータ ファジーK-Meansの実装の場合:



  • 入力にはベクターデータセットが必要です。
  • 最初のkクラスターをシードするには、RandomSeedGeneratorが必要です。
  • 距離測定には、SquaredEuclideanDistanceMeasureが必要です。
  • 距離測定値の2乗値が使用されている場合は、–cd1.0などの大きな値の収束しきい値
  • maxIterationsのデフォルト値は-x10です。
  • -m1.0より大きい値の正規化係数またはあいまいさ係数

質問がありますか?コメントセクションでそれらに言及してください。折り返しご連絡いたします。

関連記事

Power BI vs Tableau 2016



ApacheMahoutでの教師あり学習