カイ2乗検定
こんにちは。
統計の話です。
今回は、「カイ2乗検定」についてまとめてみました。
カイ2乗検定が証明するのは、
「データが予測どおりの割合か否かを判定すること」
使い道は、
「独立変数AとBによって従属変数が異なると言えるか否かを証明する」
例えば、「男性(独立変数A)と女性(独立変数B)で、糖尿病(従属変数)に罹患する割合が異なるのかどうかを証明したい場合」にカイ2乗検定を使って証明できます。
ある病院で調査をした結果、下記の表1が得られたとします。
表1 | 男性 | 女性 | 合計 |
糖尿病 + | 24 | 13 | 37 |
糖尿病 − | 15 | 18 | 33 |
合計 | 39 | 31 | 70 |
糖尿病を罹患した人数(糖尿病+)は男性が24人、女性が13人となっています。
この結果だけをみると、男性の方が糖尿病になりやすいと考えられそうです。
しかし、反対に、糖尿病を罹患していない人数(糖尿病−)は、男性が18人、女性が15人です。この結果からは、男性の方が罹患しにくいとも考えられますね。
この場合、表の数値からだけではどちらかの解釈を採用するための根拠がありません。
それは、今回調査をした対象群がたまたまこの結果だったからという原因を排除できないためです。
しかし、カイ2乗検定を使えば、男性と女性で違いがあるのかどうかを証明できます。
仮説「男性と女性で、糖尿病に罹患する割合が異なる」に対して、帰無仮説をたてます。
帰無仮説は、証明したい仮説の反対です。
したがって、帰無仮説は、「男性と女性で、糖尿病に罹患する割合は等しい」となります。
本例題では、糖尿病の罹患率が仮に30%だったとします。
実際に調査した結果は、下記の表1の通りです。
表1 | 男性 | 女性 | 合計 |
糖尿病 + | 24 | 13 | 37 |
糖尿病 − | 15 | 18 | 33 |
合計 | 39 | 31 | 70 |
一方、糖尿病に罹患すると予測される値は罹患率30%であるため、表2の通りとなります。
表2 | 男性 | 女性 | 合計 |
糖尿病 + | 12 | 9 | 21 |
糖尿病 − | 27 | 22 | 49 |
合計 | 39 | 31 | 70 |
このように、実際に調査して得られた結果の値は、「観測度値」と呼びます。
帰無仮説が成立した時に得られるであろう結果の値は、「期待度値」と呼びます。
この「観測度値」と「期待度値」のズレを数値化したものを「カイ2乗値」と呼びます。
カイ2乗値は、((観測度数ー期待度数)2/ 期待度数)の総和で算出します。
期待度数と観測度数が一致すればするほど、カイ2乗値は小さくなり、ずれが大きくなればなるほど、カイ2乗値は大きくなります。
自由度1の場合、カイ2乗値=3.84以上になれば、p < 0.05となり、有意な差があると解釈します。
本例題の場合、
カイ2乗値=(24-12)2/12+(15-27)2/27+(13-9)2/9+(18-22)2/22
=12+5.33+1.78+0.73
=19.84
となります。(計算まちがってないかな?(笑))
したがって、今回の帰無仮説は棄却され、「男性と女性で、糖尿病に罹患する割合が異なる」という仮説が証明されました。
以上がカイ2乗検定の流れになります。
他にも、
「糖尿病に対して治療Aと治療Bを行ない、一定期間後の寛解・増悪した人数を比較し、治療法により治癒率が異なると言えるかどうか」を証明する場合
「A店とB店でサッカーボールと野球ボールの売り上げがことなるかどうか」を証明する場合などで使えます。
初めて統計のまとめを作成しましたが、Blogという形に残す作業はとても下調べや準備が必要だと知りました。
Blog等に記載されている情報を活用するときは、感謝しなければいけませんね。。。。