[社内統計学勉強会]カイ二乗分布とt分布をPythonで描画する

こんにちは。
GMOアドマーケティングのT.Iです。

前回に続き、第四回目の勉強会を開催しました。
今回の勉強会では $χ^2$ 分布や $t$ 分布の概要と、これらの分布を活用した検定/推定方法について学んだので、本記事では学んだ内容の一部である $χ^2$ 分布や $t$ 分布について紹介します。

$χ^2$ 分布

$χ^2$ 分布について、Wikipediaでは以下のように紹介されています。

カイ二乗分布（カイにじょうぶんぷ、カイじじょうぶんぷ）、または$χ^2$分布は確率分布の一種で、推計統計学で最も広く利用されるものである。ヘルメルトにより発見され、ピアソンにより命名された。
独立に標準正規分布に従う$ k $個の確率変数 $X_1, …, X_k$ をとる。このとき、統計量
$ Z = \sum^k_{i=1}X^2_i $
の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。

引用元 | カイ二乗分布、2018年4月3日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/カイ二乗分布

$χ^2$ 分布は平方和や分散と密な関係があることから、母分散の検定/推定によく活用されます。

また、確率密度関数の分布は以下の通りです。
自由度によって形状が大きく異なるため、今回は4つのパターンの自由度でグラフを描画しました。
※グラフの描画はGoogle Colabの環境でPythonのmatplotlibを使いました

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 8, 1000)
fig,ax = plt.subplots(1,1)

linestyles = [':', '--', '-.', '-']
deg_of_freedom = [1, 2, 3, 4]
for k, ls in zip(deg_of_freedom, linestyles):
  ax.plot(x, stats.chi2.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)

plt.xlim(0, 8)
plt.ylim(0, 1.0)

plt.legend()
plt.show()

import numpy as np

import matplotlib.pyplot as plt

x = np.linspace(0, 8, 1000)

fig,ax = plt.subplots(1,1)

linestyles = [':', '--', '-.', '-']

deg_of_freedom = [1, 2, 3, 4]

for k, ls in zip(deg_of_freedom, linestyles):

ax.plot(x, stats.chi2.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)

plt.xlim(0, 8)

plt.ylim(0, 1.0)

plt.legend()

plt.show()

正規分布と違い、形が左右対称ではなく自由度 $k$ によってグラフの形状が異なるのが大きな特徴です。
ただし、自由度 $k$ が大きくなるに連れてグラフの形状が左右対称に近づきます。
$k$を1〜30の30パターンで$χ^2$ 分布の確率密度関数をプロットしたものが以下になります。

$t$ 分布

$t$ 分布の概要は以下の通りです。

統計学および確率論において、t分布（ティーぶんぷ、または、スチューデントのt分布）は、連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。また、 2つの平均値の差の統計的有意性を検討するt検定で利用される。

引用元 | t分布、2018年4月3日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/T分布

$t$ 分布についても特徴を明らかにするため、確率密度関数を描画してみました。
※比較のために標準正規分布も描画しています

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(-6, 6, 1000)
fig,ax = plt.subplots(1,1)

linestyles = [':', '--', '-.', '-']
deg_of_freedom = [1, 3, 30]
for k, ls in zip(deg_of_freedom, linestyles):
  ax.plot(x, stats.t.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)

ax.plot(x, stats.norm.pdf(x, 0, 1), linestyle='-', label="Standard Normal Distribution")

plt.xlim(-6, 6)
plt.ylim(0, 0.4)

plt.legend()
plt.show()

import numpy as np

import matplotlib.pyplot as plt

x = np.linspace(-6, 6, 1000)

fig,ax = plt.subplots(1,1)

linestyles = [':', '--', '-.', '-']

deg_of_freedom = [1, 3, 30]

for k, ls in zip(deg_of_freedom, linestyles):

ax.plot(x, stats.t.pdf(x, k), linestyle=ls, label=r'$k=%i$' % k)

ax.plot(x, stats.norm.pdf(x, 0, 1), linestyle='-', label="Standard Normal Distribution")

plt.xlim(-6, 6)

plt.ylim(0, 0.4)

plt.legend()

plt.show()

グラフから確認できる通り、正規分布と同様で左右対称となっています。
また、$t$ 分布と正規分布の確率密度関数を比較すると以下のような特徴があります。

$t$分布の確率密度関数は自由度$k$によって形状が変わる
$k$が大きいほど中心部分が高くなる
$k$が大きくなればなるほど、標準正規分布の形に近づく
$k$が30を超えると標準正規分布とほぼ同じ形になる

上記のような特徴を持つことから、$t$分布はサンプル数が少ない場合や母分散が未知のときの検定/推定に活用されます。

まとめ

今回は統計学でも特に代表的な分布である $χ^2$ 分布と $t$ 分布について紹介しました。
特に$t$ 分布については、私自身も過去に「ある実験結果の”差”が偶然のものなのか、もしくは意味のある”差”なのか」を判断する際に$t$ 検定($t$ 分布を用いた検定)を活用した経験があります。
このような判断が必要なケースはデータサイエンス領域(たとえば機械学習における、あるモデルの精度評価など)でも活用できると考えられますが、エンジニア以外でも広告の運用やコンサルティング領域でも広く活用できるでしょう。

統計学の世界には今回紹介した分布以外にも様々な分布が存在するので、今後も引き続き勉強会に参加しながら、それぞれの分布の特徴や活用方法について理解を深めていきます。

T.Ishimaru

2016卒のWebエンジニア。
採用やマネジメントもやってます。

[社内統計学勉強会]カイ二乗分布とt分布をPythonで描画する

\(χ^2\) 分布

\(t\) 分布

まとめ

\(χ^2\) 分布

\(t\) 分布

まとめ

おすすめ

【Python】噂の”LightweightMMM”を使ってみた

GoogleのVertex AI PaLM Embedding APIを使って類似記事タイトルをレコメンドする

Slackアプリ経由でChatGPTと連想ゲームをしてみた。