機械学習の偏りと分散とは何ですか?



この記事では、機械学習におけるバイアスと分散の概念と、モデルの予測精度を決定するそれらの間の関係について説明します。

に 、モデルのパフォーマンスは、その予測と、見えない独立したデータに対してどれだけうまく一般化されるかに基づいています。モデルの精度を測定する1つの方法は、モデルのバイアスと分散を考慮することです。この記事では、モデルの信頼性を判断する上で偏りと分散がどのように重要な役割を果たすかを学びます。この記事では、次のトピックについて説明します。

既約エラー

の任意のモデル は、新しい独立した見えないデータセットの予測誤差に基づいて評価されます。エラーは、実際の出力と予測された出力の差に他なりません。誤差を計算するために、還元可能誤差と既約誤差の合計、つまり偏りと分散の分解を行います。





重要なエラーは何ですか

不可逆的なエラーは、どのエラーにも関係なく削減できないエラーに他なりません。 モデルで使用します。これは、出力変数に直接影響を与える異常な変数によって引き起こされます。したがって、モデルを効率的にするために、すべてのコストで最適化する必要がある削減可能なエラーが残ります。

削減可能なエラーには2つの要素があります– バイアスと分散 、バイアスと分散の存在は、次のようないくつかの方法でモデルの精度に影響を与えます。 過剰適合、過適合 、など。バイアスと分散を見て、での削減可能なエラーに対処する方法を理解しましょう。 。



機械学習のバイアスとは何ですか?

バイアスは基本的に、実際の値から値を予測した距離です。平均予測が実際の値から大きく離れている場合、バイアスが高すぎると言います。

バイアスが高いと、アルゴリズムは入力変数と出力変数の間の支配的なパターンまたは関係を見逃します。バイアスが高すぎる場合、モデルは非常に単純であり、関係を決定するためのデータセットの複雑さを理解していないと見なされます。アンダーフィットを引き起こします。

機械学習モデルの分散?

独立した、見えないデータセットまたは検証セット。モデルがトレーニング済みデータセットの場合と同じように機能しない場合、モデルに分散がある可能性があります。基本的に、予測値が実際の値からどの程度分散しているかを示します。



データセットの分散が大きいということは、モデルが多くのノイズと無関係なデータでトレーニングされていることを意味します。したがって、モデルに過剰適合が発生します。モデルの分散が大きい場合、モデルは非常に柔軟になり、新しいデータポイントに対して誤った予測を行います。トレーニングセットのデータポイントに合わせて調整されているためです。

また、偏りと分散の概念を数学的に理解してみましょう。予測している変数をYとし、他の独立変数をXとします。次に、2つの変数間に次のような関係があると仮定します。

Y = f(X)+ e

上記の式では、ここに です は平均値0の推定誤差です。次のようなアルゴリズムを使用して分類器を作成する場合 線形回帰 、 など、点xで予想される二乗誤差は次のようになります。

err(x)=バイアス2+分散+既約エラー

偏りと分散がどのように影響するかについても理解しましょう 機械学習 モデルのパフォーマンス。

機械学習モデルにどのように影響しますか?

偏りと分散の関係は、以下の4つのカテゴリに分類できます。

  1. 高分散-高バイアス–モデルは一貫性がなく、平均して不正確です
  2. 低分散-高バイアス–モデルは一貫していますが、平均して低い
  3. 高分散-低バイアス–やや正確ですが、平均して一貫性がありません
  4. 低分散-低バイアス–これは理想的なシナリオであり、モデルは平均して一貫性があり正確です。

機械学習の偏りと分散-edureka

モデルのバイアスと分散を検出することは非常に明白ですが。分散が大きいモデルでは、トレーニングエラーが低く、検証エラーが高くなります。また、バイアスが高い場合、モデルのトレーニングエラーは高くなり、検証エラーはトレーニングエラーと同じになります。

検出は簡単に思えますが、実際のタスクはそれを最小限に抑えることです。その場合、次のことができます。

  • 入力機能を追加する
  • 多項式の特徴を導入することにより、より複雑になります
  • 正則化期間を短縮する
  • より多くのトレーニングデータを取得する

バイアスと分散とは何か、そしてそれがモデルにどのように影響するかがわかったので、バイアスと分散のトレードオフを見てみましょう。

バイアスと分散のトレードオフ

モデルのバイアスと分散の間の適切なバランスを見つけることは、バイアスと分散のトレードオフと呼ばれます。これは基本的に、モデルが過適合または過適合になっていないことを確認する方法です。

モデルが単純すぎてパラメーターが非常に少ない場合、バイアスが高く分散が小さいという問題があります。一方、モデルに多数のパラメーターがある場合、モデルの分散は大きく、バイアスは低くなります。このトレードオフにより、2つの間に完全にバランスの取れた関係がもたらされるはずです。理想的には、低バイアスと低分散があらゆる機械学習モデルのターゲットです。

cで再帰を使用する階乗

トータルエラー

どの機械学習モデルでも、バイアスと分散の適切なバランスは、予測精度の観点から完璧なシナリオとして機能し、過剰適合や過適合を完全に回避します。アルゴリズムの複雑さの観点から、バイアスと分散の最適なバランスにより、モデルが過剰適合または過適合になることはありません。

統計モデルの平均二乗誤差は、二乗バイアスと分散および誤差の分散の合計と見なされます。これはすべて、モデルに偏り、分散、既約誤差がある合計誤差の中に入れることができます。

実際の実装を利用して、エラー全体を減らす方法を理解しましょう。

私たちは作成しました 線形回帰分類器 の中に 機械学習における線形回帰 のデータセットモジュールにある糖尿病データセットを使用したEdurekaに関する記事 scikitlearn 図書館。

分類器の平均二乗誤差を評価したところ、約2500の合計誤差が得られました。

合計エラーを減らすために、より多くのデータを分類器に供給し、その見返りに平均二乗誤差を2000に減らしました。

これは、モデルにより多くのトレーニングデータを供給することにより、全体のエラーを減らす簡単な実装です。同様に、他の手法を適用してエラーを減らし、効率的な機械学習モデルのバイアスと分散のバランスを維持することができます。

これで、マッハの偏りと分散を学習したこの記事の最後に到達します。ineLearningとその実装およびユースケース。このチュートリアルで共有されているすべてのことを明確に理解していただければ幸いです。

「機械学習の偏りと分散」に関するこの記事が関連していると感じた場合は、 25万人以上の満足した学習者のネットワークを持つ信頼できるオンライン学習会社が世界中に広がっています。

私たちはあなたの旅のすべてのステップであなたを助け、なりたい学生や専門家のために設計されたカリキュラムを考え出すためにここにいます 。このコースは、Pythonプログラミングをすぐに開始できるように設計されており、Pythonのコア概念と高度な概念の両方、およびさまざまな概念についてトレーニングします。 お気に入り 、 、など。

ご不明な点がございましたら、「機械学習の偏りと分散」のコメントセクションでお気軽にご質問ください。喜んでお答えいたします。