機械学習の評価指標 – ROC曲線とAUC | GMOアドパートナーズ TECH BLOG byGMO

このエントリーは、GMOアドマーケティング Advent Calendar 2018 の 12/14の記事です。

GMOアドマーケティングとしては初のAdvent Calendar参戦です。

こんにちは、GMOアドマーケティングのS.Rです。

機械学習で分類の問題を解決するときに得られた結果をどのように評価をすればよいか皆さんは知っていますか？

今回はよく使われる分類問題の評価指標であるROC曲線とAUCを皆さんへ紹介します。

１混同行列(Confusion Matrix):

ROC曲線とAUCの説明に入る前に前提知識としてまず、混同行列の定義を皆さんへ説明します。混同行列（Confusion Matrix）は、クラス分類の結果をまとめた表のことです（表１）。

今回は例として分類モデルを使って腫瘍がガンになるかを予測します。

図1は分類モデルで腫瘍がガンになるかならないかを計算した確率の分布図です。

図１の結果で予測した確率0.7を判断基準としてガンになるか判断します。予測した結果の構成は表１です。

予測した結果でガンになりそう人が110名おり、

その中に本当にガンになった人は90名がいました。

予測した結果で良性腫瘍の人が90名おり、

その中に本当に健康な人は80がいました。

この結果で真陽性率又は敏感度(青)、偽陽性率(緑)、真陰性率又は特異度（赤）、偽陰性率(紫)四つの指標を計算して表３の混同行列を作成します。

この四つ指標の定義は表2で説明します。

		判定結果
		良性腫瘍と判断	ガンと判断
真の状態	良性腫瘍グループ	80	20
真の状態	ガングループ	10	90

表１:ガンの予測結果

真陽性率・敏感度	偽陽性率	真陰性率・特異度	偽陰性
ガンの人を「ガン」と判断の割合	良性腫瘍の人を「ガン」と判断の割合	良性腫瘍の人を「良性腫瘍」と判断の割合	ガンの人を「良性腫瘍」と判断の割合

表２:真陽性率、偽陽性率、真陰性、偽陽性

		判定結果
		良性腫瘍と判断	ガンと判断
真の状態	良性腫瘍グループ	真陽性率 (80%)	偽陽性率 (20%)
真の状態	ガングループ	偽陰性率(20%)	真陰性率(90%)

表３:混同行列の例

２ ROC曲線(Receiver Operating Characteristic Curve):

ROC 曲線は真陽性率や真陰性率を組み合わせて作成した曲線です。図2の上半部分が良性腫瘍の人とガンになった人で予測した確率の分布図です。その中に青い部分が真陽性の分、赤い部分が偽陽性の分、紫部分が真陰性率の分、緑部分が偽陰性の分です。青い線はガンになるか判断する予測した確率の基準値です。

図2の下部分がROC 曲線です。ROC曲線の縦軸は真陽性率です。横軸は真陰性率です。図2から見ること男女判断の予測したガンになる確率の分布とROC 曲線を連動しています。

３良い分類器・悪い分類器

ROC 曲線では分類の基準指標や悪い分類の基準指標を直感で判別できます。分類器の効果は各分類の母集団で予測した確率の分布に依存されています。

例えばガンの予測で良性腫瘍の人とガンの人を学習したモデルにとって、

予測した確率の分布の図が重なったら（図3の左部分）

モデルの精度はランダムに分類する精度と同じになってしまいます。

この場合は、学習したモデルは予測に役に立ちません。

逆に良性腫瘍の人とガンの人を学習したモデルとって予測した確率の分布が大きく別れたら（図3の右部分）ガンの予測に良い効果を得られます。

図3の場合は予測した確率の基準を０.２にして99%の予測精度を得られます。

図4から見るとROC 曲線で分類結果の品質を直感的に判断できますが実際に使う場合に数値の指標が必要です。この為にAUCという分類結果を評価する数値の指標が定義されています。

４ AUC(Area Under Curve)

AUCは指標の名前通りROC 曲線下の面積（積分）となります。この面積の範囲がは０から１となります。ランダム分類器はのAUC値は０.５です。AUC値は０.５以上になれば分類器の効果がランダム分類器より良いです。AUC値は０.５以下になったら評価指標を逆にしてAUC値は０.５以上の分類器を得られます。