男女と文理の選択に関係はあるか?(独立性の検定)

今回は数学のハナシ。

 

独立性の検定について。

確率分布とかの話もしてないのに。。。

 

 

確率でいうと、独立の定義ってのは、

 

事象{A_1 , A_2 ,\cdots, A_N}が独立

{\leftrightarrow P(A_1 \cap A_2 \cap \cdots \cap A_N) = P(A_1)P(A_2) \cdots P(A_N) }

 

です。

 

そんで独立性の検定では、

 

独立かどうかわからないものに対して、

データからある値を計算をして、

それらが独立か、それとも関係があるのか

を考える、と。

 

とりあえず確率分布とかは調べてもらうということで、、、(笑)

 

母集団が性質{A_1 , A_2, \cdots ,A_m}という性質のどれか1つと性質{B_1 , B_2, \cdots ,B_n}のうちどれか1つをもつとし、

{P(A_i,B_j)=p_{ij}, p_i= \sum_{j=1}^{n} p_{ij}, q_j = \sum_{i=1}^{m} p_{ij} (i=1,\cdots,m ,j=1,\cdots,n) }

とするとき、

{\displaystyle \chi^2 := \sum_{i=1}^{m} \sum_{j=1}^{n} \frac{(x_{ij} - N p_i q_j)^2}{N p_i q_j} }

は、自由度{(m-1)(n-1)}{\chi^2}分布に従う(としてよい)。(*)

 

というものです。

 

例えば、、、

 

大学生男女100人ずつに文系か理系かを尋ねて、

性別が文系理系の選択に関係があるかを考えてみます。

 

性別と文理は独立である。という仮説の下で考えます(=帰無仮説)。

 

次のような結果(=実測値)が得られたとすると。。。

 

 f:id:sx_somath:20170628193108p:plain

 

この表から、理論値を計算します。

理論値はの計算の例は、

{P(文系の男)×(全体の人数)=P(文系である)P(男である)×(全体の人数)=\frac{122}{200} × \frac{100}{200} × 200}

といった感じです。

 

{P(文系の男)=P(文系である)P(男である)}

この変形は初めにやった独立の定義ですネ。

結果がこれ。

 

f:id:sx_somath:20170628201319p:plain

 

ここから、

統計量((*)の式です)を求めます。

実測値と理論値の各セルで、

{ \frac{(実測値-理論値)^2}{    理論値    }}

を計算します。

するとこんな感じ。

f:id:sx_somath:20170628213754p:plain

 

すると、この右下にいる「計」の数字が統計量と呼ばれる数値です。

あとはこの数値と{\chi^2}分布表の値を比較すればOK!

今回は自由度1=(2-1)(2-1)なので、今回は危険率(外れる確率)を1%とすると、

{\chi^2 _1 (0.01)=6.83}だから、統計量の方がすげーでかい。

 

今回の検定では

統計量のほうが大きいときは、

仮説を棄却(仮説が間違っていた!)して、

今回の結果から文系理系の選択には性別が関係ある

と判断する。

 

といった流れです。(長かった。。。)

 

 

 

高校のクラス分けとかだと理系クラスの男子率すごいよね。

疲れたからここまで!!!