== データの尺度と相関 ==

(参考)データの尺度
◆質的データ◆
名義尺度この尺度では,等しいか等しくないかのみ意味があり,幾ら大きいか,何倍大きいかなどの意味はない.
順序尺度大小比較は可能であるが,間隔や比率には意味がない
◆量的データ◆
間隔尺度目盛が等間隔であるもの.差には意味があるが比率には意味がない.
比例尺度原点(0)の決め方が定まっていて,間隔にも比率にも意味があるもの.和差積商の計算が自由にできる.
0. 目次
 このページでは,2つのデータの尺度に応じて,次の4種類に分けて相関関係を扱う.
0.1 相関係数(ピアソンの積率相関係数)
量的データ×量的データ
【例】
 次の表1で示される40人の生徒の数学と理科の得点について,相関係数−1≦r≦1を求める.
-表1-
生徒番号12345・・・40
数学5069545260・・・64
理科6972747768・・・63

0.2 順位相関係数(スピアマンの順位相関係数)
順位データ×順位データ
【例】
-表2-

A大会順位B大会順位
選手121
選手246
選手377
選手413
選手565
選手632
選手788
選手854
 右の表2にように,長距離選手8人について,2つの大会の順位表があるとき,これらの順位にはどれくらいの相関が見られるかを
−1≦rs≦1
の値で示す.ここに,rs=1の場合は完全同順,rs=−1の場合は完全逆順を表す.
 スピアマンの順位相関係数は,順位をそのまま数値としてピアソンの積率相関係数に当てはめたものとなっている.

0.3 相関比
質的データ×量的データ
【例】
表3のような男女別体重があるときに,相関比イータはギリシャ文字)を
=(群間変動)
(全変動)
によって定義する.これは,
(全変動)=(群間変動)+(群内変動)
と分けて,個人ごとの誤差による変動,すなわち群内変動と,群の違いによる変動に分けて考えて,全変動の中で群間変動が占める割合を示したものです.
-表3-
男子女子
67
62
67
58
66
62
69
53

45

55

46

54

41

0.4 連関係数(クラメールの連関係数)
質的データ×質的データ
【例】
-表4.1-
みかん小計
産地A720330
産地B18201250
産地C510520
小計305020100
 右の表4.1のような,みかんの産地と等級別(両方とも名義尺度)の度数分布表があるとき,これらの産地と等級の間の関連はどれくらいか.ほとんど無関係(独立)の場合C=0〜完全な連関が見られるC=1までを数値として表す.
-表4.2-
みかん小計
産地A915630
産地B15251050
産地C610420
小計305020100
 たとえば,産地と等級が全く無関係(独立)であれば,表4.1に示された観測度数は,表4.2に示されるように周辺和から逆算して定まる期待度数に等しくならなければならない.
 カイ2乗の値の計算による独立性の検定と同様の考え方で,表4.1と表4.2の違いをカイ2乗値で表したとき,その値が大きければ「独立でない」「連関が強い」と見なせる.ただし,0≦C≦1となるように,カイ2乗の値を一定の数で割って調整した値を用いる.

1. 相関係数
ピアソンの積率相関係数
量的データ×量的データ
【例】
 次の表1で示される40人の生徒の数学と理科の得点について,相関係数−1≦r≦1を求める.
-表1.1-
生徒番号12345・・・40
数学5069545260・・・64
理科6972747768・・・63
ピアソンの積率相関係数については,このページを見てください.
《要約1》
・・・相関係数
【例題1.1】

AB
1xy
210
321
432
542
650
 右の表で示される2つの変数 x, yについて,相関係数を求めてください.
 なお,データは右のようなExcelのワークシート上にあるものとして,ワークシート関数やツールを利用してもよいものとします.
(解答)
@パソコンにExcel2007などがインストールされている場合
画面上端のメニューを使う
データ→データ分析→相関(OK)
→入力範囲:$A$1:$B$6,先頭行をラベルとして使うにチェック,出力先:$C$7など
[結果]⇒ 0.158
AWEB上のフリーソフトExcel Onlineで行う場合

ABCD
1xy
210−2−1
321−10
43201
54211
6502−1
731
81.4140.89410.158
[xの平均]A7に=AVERAGE(A2:A6)と書き込むと,3になる
[yの平均]B7に=AVERAGE(B2:B6)と書き込むと,1になる
[xの標準偏差]A8に=STDEVP(A2:A6)と書き込むと,1.414になる
[yの標準偏差]B8に=STDEVP(B2:B6)と書き込むと,0.894になる
]C2に=(A2-A$7)と書き込む.C6まで式のコピー&貼り付け
]D2に=(B2-B$7)と書き込む.D6まで式のコピー&貼り付け
[積和の計算]C8に=SUMPRODUCT(C2:C6,D2:D6)と書き込むと,1になる
[相関係数の計算] D8に=C8/(A8*B8*5)と書き込むと,0.158になる
【問題1.1】
 10人の生徒について数学と理科の得点を集計したところ,数学は平均,標準偏差,理科は平均,標準偏差
共分散はであった.
 これら10人の生徒の数学と理科の得点の相関係数を求めてください.
解答を見る
【問題1.2】

xy
製品102
製品211
製品323
製品412
製品512
平均12
標準偏差
 右の表の白色の欄を埋めて,製品1〜5について変数x, yの相関係数を求めてください.
解答を見る

《連関・相関係数・・・とりあえずの目安表》
(1) 相関係数が計算できたとき,その数字は大きいのか小さいのか(相関が強いのか弱いのか)を判断するための何らかの基準が欲しいと思うのが分析者の心理である.しかし,扱われている分野などによって,事情が違う.多くの教科書に,明確な「目安表」が掲載されていないのは,数字が一人歩きしてしまうおそれがあるからかもしれない.
-表1.2-
以上〜未満解釈
0.7〜1.0強い正の相関がある
0.3〜0.7中程度の正の相関がある
0〜0.3ほとんど相関がない
※符号が逆のときは,各々負の相関になる
(2) 表らしいものが何もないと,この教材を読んでいる学生が不安感を持つかもしれませんので,とりあえずの目安表として表1.2を載せておきますが,この数字はただの目安です.
 そもそも,相関係数は2つのn次元ベクトルのなす角(の余弦:)なので,角度が45°になる場合

を「強い相関がある」に含めるのはおかしいとも言えます.
 ピアソンの積率相関係数を2つのベクトルのなす角で考えると,表1.2よりも+0.15もしくは+0.2程度境界線を大きくとる方が実態に合うかもしれません.
 他方では,4.の項目で述べる「クラメールの連関係数」もしくは「φファイ係数」は,かなり関連していても大きな数字にならない傾向があり,表1.2の境界線をもう少し低くとる方が合うかもしれません

《要約2》
 の平均で表し,
 の平均で表し,
 の平均で表し,
 の平均で表し,
 の平均で表す
このとき,相関係数はこれらを用いて次の式で表せる.
【例】
 のとき,

《要約2》の証明

(分子)=



(分母)の







ゆえに,
同様にして,
結局
・・・■証明終わり■
【問題1.3】
 2つの変数について
のとき,の相関係数を求めてください.
解答を見る

■無相関の検定■
 相関係数が計算できても,標本の大きさ(データの総数)nが小さな数であるときは,偶然の誤差によって相関係数が何らかの値になっている場合がある.(概して,データの総数nや相関係数rが大きな値であるときは,そのような『ゆらぎ』は少ない).
 そこで一般に,
(1) 求まった相関係数の有意性の検定を行う.
(2) 相関係数が有意な場合は,その相関係数を記載する.有意でなければ,その相関係数を使わない.
という2段階で示す方が望ましい.
 無相関検定は,(水準間変動)÷(誤差変動)を計算するF値もしくは,そのルートのt値を用いて行う.
 データの総数をn,変数(水準)の個数をk=2,相関係数をrとすると
(水準間変動)=r2,(誤差変動)1−r2の計算において,各々を自由度で割って自由度1つ分の値で比較する.
 (全変動)の自由度は,総平均が,その値になるように縛りが入るから,(データの組数)−1

 (水準間変動)の自由度は,水準数から1を引く

 (誤差変動)の自由度は,(データの組数)−(変数の個数)により

よって,次のF値もしくはt値により,F検定もしくはt検定を行えばよい.(下の表は,有意水準5%の表)


t分布表 t値
自由度5%
33.182
42.776
52.571
62.447
72.365
82.306
92.262
102.228
112.201
122.179
132.160
142.145
152.131
162.120
172.110
182.101
192.093
202.086
212.080
222.074
232.069
242.064
252.060
262.056
272.052
282.048
292.045
302.042
312.040
322.037
332.035
342.032
352.030
362.028
372.026
382.024
392.023
402.021
412.020
422.018
432.017
442.015
452.014
462.013
472.012
482.011
492.010
502.009
602.000
701.994
801.990
901.987
1001.984
2001.972
3001.968
4001.966
5001.965
6001.964
7001.963
8001.963
9001.963
F分布表  F値
分子の自由度が1の場合
自由度5%
310.128
47.709
56.608
65.987
75.591
85.318
95.117
104.965
114.844
124.747
134.667
144.600
154.543
164.494
174.451
184.414
194.381
204.351
214.325
224.301
234.279
244.260
254.242
264.225
274.210
284.196
294.183
304.171
314.160
324.149
334.139
344.130
354.121
364.113
374.105
384.098
394.091
404.085
414.079
424.073
434.067
444.062
454.057
464.052
474.047
484.043
494.038
504.034
604.001
703.978
803.960
903.947
1003.936
2003.888
3003.873
4003.865
5003.860
6003.857
7003.855
8003.853
9003.852


【例題1.4】
 ある学級の生徒40人について,1学期中間試験で,数学の得点と英語の得点の相関係数が0.32であった.2つの試験とも得点は正規分布に従っているものとして,2つの試験の間に有意な相関があるかどうか,有意水準5%で調べてください.
(解答)
 有意な相関がないもの(母集団相関係数ρ=0)と仮定すると,のとき

だから,有意水準5%で有意差あり.帰無仮説は棄却される.よって,有意な相関がある・・・(答)
もしくは,Excelのワークシート関数を用いる場合,=TDIST(2.0821, 40−2, 2)=0.0441< 0.05により,有意な相関がある・・・(答)
※TDIST(T値, 自由度, 2は両側検定)の形
もしくは,F値で検定を行う場合(分子の自由度は1,分母の自由度はn−2としてF分布表を見る)

だから,有意水準5%で有意差あり.帰無仮説は棄却される.よって,有意な相関がある・・・(答)
もしくは,Excelのワークシート関数を用いる場合,=FDIST(4.3351, 1, 40−2)=0.0441< 0.05により,有意な相関がある・・・(答)
【問題1.5】
  ある学級の生徒6人について,入学試験と1学期中間で,数学の得点の相関係数が0.8であった.2つの試験とも得点は正規分布に従っているものとして,2つの試験の間に有意な相関があるかどうか,有意水準5%で調べてください.
解答を見る

2. 順位相関係数
スピアマンの順位相関係数
順位データ×順位データ
【例】
-表2-

A大会順位B大会順位
選手121
選手246
選手377
選手413
選手565
選手632
選手788
選手854
 右の表2にように,長距離選手8人について,2つの大会の順位表があるとき,これらの順位にはどれくらいの相関が見られるかを
−1≦rs≦1
の値で示す.ここに,rs=1の場合は完全同順,rs=−1の場合は完全逆順を表す.
 スピアマンの順位相関係数は,順位をそのまま数値としてピアソンの積率相関係数に当てはめたものとなっており,次の公式で求めることができる.
・・・@
 ここに,は2つの順位の差で,例えば上の表で選手1では,選手2ではなどと計算する.
・・・@’
(公式の説明)
 ピアソンの積率相関係数では,相関係数は次の公式で求められる.
・・・A
この式Aを上記のように定義した順位相関係数に当てはめると,@に等しくなることを示す.
 まず,1列目には1〜nまでの番号が並んでいるから
総和は

平均値は

分散は





 2列目についても,全く同様


これらをAに代入すると
・・・A’

他方

ここで,だから


したがって





A’は



よって@’が示された.
(参考1)
 Excelで計算する場合,公式@’で計算しても,データ→データ分析→相関として『これらの順位を数値と見なして』求めても同じ結果になる.
(参考2)
 スピアマンの順位相関係数は,もともと順序尺度の引き算などが想定されていない『順位の数値』に対して四則計算を施しているので,理屈の上では危うい所がある.たとえば,マラソンで1位が飛び抜けていて,2位以下が団子状態になっているような場合でも,『等間隔であるかのように扱いながら』相関を調べていることになり,結果を鵜呑みにできない留保含みである点を忘れてはいけない.しかし,他に順位相関を求める方法が見当たらなければ,一応の参考にはなる.
(参考3)
 同順があるときの順位相関の求め方として,例えば,1位,2位,2位,4位,・・・の場合,1, 2.5, 2.5, 4, ・・・のように同順者に同じ平均値を割り当てる考え方もある.(問題2.2参照)
(参考4)
 順位相関係数については,他にケンドールの順位相関係数も知られているが,この教材では有名なスピアマンの順位相関係数のみ扱った.
【問題2.1】

AB
チーム168
チーム2810
チーム332
チーム426
チーム579
チーム611
チーム743
チーム854
チーム995
チーム10107
 次の表は,ある合唱コンクールにおいて,出場10チームに対する評価として審査員A,Bが付けた順位だとします.
 これら2人の審査員が付けた順位の相関をスピアマンの順位相関係数で表してください.
解答を見る

【問題2.2】
 6人の生徒の数学と理科の成績が次の表のようになったとき,この2教科の成績のスピアマンの順位相関係数を求めてください.

数学理科
生徒123
生徒221
生徒313
生徒466
生徒555
生徒641
※同順位のデータがあるときの順位相関については,様々な取り扱い方がある.(A) 複雑になるので扱わないという立場もある.(B) 同順位のデータには等しく平均順位を与えるという立場もある.
 この問題は,(B)の立場で解いてください.
解答を見る

3. 相関比
質的データ×量的データ
 表3のような男女別体重があるときに,相関比を
=(群間変動)
(全変動)
によって定義する.(イータはギリシャ文字.が分散を表すのと同様で,2乗が相関比を表す.)
これは,
(全変動)=(群間変動)+(群内変動)
と分けて,個人ごとの誤差による変動,すなわち群内変動と,群の違いによる変動に分けて考えて,全変動の中で群間変動が占める割合を示したものになる.
 なお,書物によって「群」「級」「列」「グループ」などの用語が用いられる.この問題で,男子,女子という2つの「列」に書かれたデータについて述べているというときは,相関比とは,全変動における列による効果の割合を調べていることになり,男子と女子という2つの「級」が合併されたデータと考えているときは,個人差を取り除いた級による差が全変動に占める割合を調べていることになる.
-表3-
男子女子
=67
=62
=67
=58
=66
=62
=69
=53

=45

=55

=46

=54

=41


(群間変動)=(全変動)−(群内変動)
であるから,群内変動の方が求めやすいときは,
=1−(群内変動)
(全変動)
で計算してもよい.

(実際の計算)---小数は第1位まで表示
表3において,男子の平均値,女子の平均値,全体の平均値を求めておく.



各々のデータについて,群内,全体の両方に付いて,偏差→偏差平方→偏差平方和を求める.
-表3.1-
体重群内偏差同左2乗全体偏差同2乗
男子1
男子2
・・・・・・・・・・・・・・・・・・
女子1
女子2
・・・・・・・・・・・・・・・・・・
これにより,群内変動を(within)で,群間変動を(between)で表すと
男子の群内偏差平方和=男子の群内変動
→ 204になる
女子の群内偏差平方和=女子の群内変動
→ 133.2になる
全体の偏差平方和=全変動
→ 993.1になる
群間変動は
→ 655.9になる
相関比は
→ 0.66になる
(備考1)

であるが,一般には,高校数学Tの展開公式では,次のようになる.


ここではΣ記号に関係のない定数であるが,次の式に注意

したがって,次の関係式が成り立つ(男子の8人)

同様にして(女子の5人)

これらを加えると
全変動

群内変動

群間変動

(備考2)
男子平均,女子平均,全体平均だから群間変動は次のように計算できる
→ 655.9になる
これを使えば,上記の群内変動の計算を要しない.
Excelを使う場合,相関比の求め方[まとめ]
(1)表3.1のように,順に群内偏差,同左2乗,全体偏差,同2乗を組み立てて行くのが基本です.
(2)上記の備考2に述べたように,平均値から群間変動を求める方法があります.
(3)ExcelのVARP()関数を使えば,平均値や2乗を個別に計算しなくても分散[不偏分散ではない方,単純に記述統計として求めたもの]が求まります.これに個数を掛けると変動に戻ります.そこで,群ごとの分散×個数,全体の分散×個数で,群内変動と全変動が求まるので,これにより相関比が求まります.
(4)Excelのデータ→データ分析→分散分析:一元配置に進むと,変動要因がグループ間,グループ内,合計に分けて示されるので,グループ間/合計により,相関比が直接計算できます.
※なお,相関係数の場合と同様に,相関比の値がどの位なら相関が強い(弱い)といえるのかという基準は,必ずしも定説的なものがありません.分野によって話が変わります.
 ただし,(4)の分散分析のついでに出力されるP-値を見ると,0.05以上かどうかで有意水準5%で群間変動が見られるかどうかの目安にできます.
※また,Excelの分散分析:一元配置で出力される「分散」は不偏分散VAR()で,この教材で想定している分散VARP()よりも少し大きいが,下段の表に示される「変動」は,この教材での取り扱いと一致する.

【問題3.1】
 次の表は,ある店で果物が売れた時間帯(0〜23)を記録したものだとします.(架空データ)
-表3.2-
みかんりんごかき
71815
11203
5215
197
10
 この表から,果物の種類と売れた時間帯の相関比を,上記のまとめ(1)〜(4)の方法で求めてください.
 特に,(4)の方法では,P-値を用いて,有意な群間変動があるといえるかどうかも判断してください.
解答を見る
【問題3.2】
-表3.3-
教員1教員2教員3教員4
54756473
50716773
65676784
61737274
627467
6270
64
 次の表は,同一の教材を4人の教員が教えたときの生徒の得点だとします.(生徒は互いに別で対応はない.架空データ)
 この表から,教える教員が異なれば,生徒の得点に有意差を生じるといえるかどうか,根拠も示して判断してください.
解答を見る

4. 連関係数
クラメールの連関係数
質的データ×質的データ
【例】
-表4.1-
みかん小計
産地A720330
産地B18201250
産地C510520
小計305020100
 右の表4.1のような,みかんの産地と等級別(両方とも名義尺度)の度数分布表があるとき,これらの産地と等級の間の関連はどれくらいか.ほとんど無関係(独立)の場合C=0〜完全な連関が見られるC=1までを数値として表す.
-表4.2-
みかん小計
産地A915630
産地B15251050
産地C610420
小計305020100
 たとえば,産地と等級が全く無関係(独立)であれば,表4.1に示された観測度数は,表4.2に示されるように周辺和から逆算して定まる期待度数に等しくならなければならない.
 カイ2乗の値の計算による独立性の検定と同様の考え方で,表4.1と表4.2の違いをカイ2乗値で表したとき,その値が大きければ「独立でない」「連関が強い」と見なせる.ただし,0≦C≦1となるように,カイ2乗の値を一定の数で割って調整した値を用いる.
(簡単な例でイメージ作り)
-表4.1.1-
みかん小計
産地A300030
産地B050050
産地C002020
小計305020100

 例えば,右の表4.1.1の場合,産地Aなら優,Bなら良,Cなら可と決まってしまう.逆に,優良可の方から見ても産地が決まる.これが「完全な連関が見られる場合で,C=1」に対応する.
-表4.1.2-
みかん小計
産地A022830
産地B480250
産地C218020
小計502030100

 必ずしも対角線上に並んでいる必要はなく,表4.1.2のように並んでいる場合,後に示す計算方法により,C=0.90と1に近い値になる.
-表4.1.3-
みかん小計
産地A156930
産地B25101550
産地C104620
小計502030100

 これに対して,表4.1.3の場合,産地Aの行を横に見ると,15:6:9=50:20:30,産地Bの行を横に見ると,25:10:15=50:20:30,産地Cの行を横に見ると,10:4:6=50:20:30となって,産地に依らず等級が同じになっている.このことは縦に見ても同様.このように,周辺和の比率で各成分が構成されているとき,産地と等級は独立=無関係であると言える.(C=0になる)

(公式の見方)
 表4.1の形で与えられたクロス集計表から定まるクラメールの連関係数をで表すと(後で出てくるギリシャ文字の関数に対応するアルファベットので表すことも多い)
Cはクラメール(Cramer)の頭文字
0≦C≦1:とり得る値の範囲(負はない)
C=0:全く連関がない=独立
C=1:完全な連関がある=一方が決まれば,他方も決まる
※連関係数には,この他

で定義されるピアソンの連関係数などもあり,単に「連関係数」と述べてもどれか分からないことがあるので,上記の値を指すときは「クラメールの連関係数」と明示する方がよい.
(*1) ただし,は総度数(表4.1では100)
(*2) は行数と列数の小さい方(等しいときはその値).表4.1では,だからとする
(*3)
 分母のN(k−1)は,連関係数の値の範囲を0≦C≦1とするための定数
(*4) カイ2乗の値は次のように求める
 表4.1の形で与えられるクロス集計表の各成分は観測度数を表している.表4.1の各成分を棚上げにして,その周辺和だけを見ると表4.2のようになっている.
-表4.1-
みかん小計
産地A720330
産地B18201250
産地C510520
小計305020100
-表4.2’-
みかん小計
産地Aa11a12a13a1・=30
産地Ba21a22a23a2・=50
産地Ca31a32a33a3・=20
小計a・1=30a・2=50a・3=20N=100

 表4.2’において,周辺和 a1・〜a3・, a・1〜a・3から期待度数を埋める.期待度数は,行と列が独立であると仮定した場合の度数を表している.
 ところで,確率の基本公式に「独立事象の乗法定理」というのがあって,2つの事象x,yが独立であるときに,xyの両方とも起こる確率は,それらの「確率の積」に等しい.

-表4.3-
みかん確率
産地Ab11b12b13b1・
産地Bb21b22b23b2・
産地Cb31b32b33b3・
確率b・1b・2b・31

 表4.2は度数で書かれているが,これを確率に直した表4.3(表4.2のすべての成分をNで割ったもの)において,行と列が「独立」であるとき,例えば
b11=b1・×b・1
b12=b1・×b・2
・・・ ・・・
b32=b3・×b・2
b33=b3・×b・3
で求まるということです.だから,例えば,表4.2のa32を直接埋めるには
a3・を確率に直すと
a・2を確率に直すと
独立事象の乗法定理により
Nを掛けて度数に戻すと
-表4.2-
みかん小計
産地A915630
産地B15251050
産地C610420
小計305020100
 一般に,により表4.2を期待度数で埋めると,右の表になる.
 ここで,各成分について次の値を求める.
(観測度数−期待度数)2
(期待度数)

-表4.2”-
みかん小計
産地A0.44 1.67 1.50 30
産地B0.60 1.00 0.40 50
産地C0.17 0.00 0.25 20
小計305020100
 このようにして右の表4.2”ができる.(画面上は小数第2位まで表示している)
 この値をすべての成分について加えたものがカイ2乗である.すなわち

 最後に,連関係数の公式に代入すると

※クラメールの連関係数が,どの位の数値であれば「連関が強い」「弱い」と言えるのかについては,扱われているデータの分野によって異なるなど,一律の基準はない.
 参考として,クラメールの連関係数は,小さな値になり易く,著者によってはC=0.1辺りでも連関を考えるようである.
 なお,元になっているカイ2乗が有意でなければこの議論はできないから,カイ2乗検定を見ておくことはできる.
 この表4.1の場合,独立性の検定の結果,P-値は0.19>0.05となって,行や列に有意差は見られない.(=独立と仮定しても棄却されない)

(参考:カイ検定のやり方)
(1) EXCELのワークシート関数 CHITEST()を利用する方法
-表4.5-
観測度数小計
産地A720330
産地B18201250
産地C510520
小計305020100
-表4.6-
期待度数小計
産地A915630
産地B15251050
産地C610420
小計305020100

 表4.5のように観測度数一覧が与えられた場合,この表の縦横欄の独立性の検定をカイ2乗を使って行うには
 表4.5とは別に,表4.6のように期待度数の表を準備します.例えば1行2列の産地A,等級良の成分は,
30×50=15
100
で求めます.他の成分も同様にして埋めます.
 次に,
=CHITEST(観測度数の範囲, 期待度数の範囲)
により,どこかのセルにカイ2乗検定の結果を書みます.なお,観測度数の範囲,期待度数の範囲を指定するときに,桃色,水色の背景色で示したように行見出し(優良可),列見出し(産地ABC)のいずれも含まない数値のみの範囲とします.
 ⇒ これにより書き込まれる結果はP-値で,それが0.05よりも小さければ有意水準5%で独立性が棄却されるというロジックですが,この問題の場合は0.197になり,独立性の仮定は棄却されません.
(2) 地道にカイ2乗値を求めていく場合
-表4.7-
カイ値小計
産地A0.44 1.67 1.50 30
産地B0.60 1.00 0.40 50
産地C0.17 0.00 0.25 20
小計305020100
 カイ2乗の値を地道に計算していくには,表4.5,表4.6を使って,さらに,表4.7を別途作っておきます.表4.7の各成分は
(観測度数−期待度数)2
(期待度数)

のよって計算する.
 このようにして得られた黄色の背景色の範囲をすべて加えたもの =SUM()がカイ2乗値である.
 最後に,カイ2乗検定を行うには,
=CHIDIST(カイ2乗値, 自由度)
と書き込むが,カイ2乗値は上記で求めた値,自由度はm行n列の場合,(m−1)(n−1)とする.上記の例では,3行3列のデータだから,2×2=4が自由度になる.
 これにより,(1)と同じP-値が得られるので,有意水準5%の検定ならば,0.05よりも大きいか小さいかを見ればよい.

【問題4.1】
-観測度数-
景気良いどちらとも悪い小計
97218
8151437
8152045
小計25373698
 右の表は,景気の良し悪し感を企業の規模別に集計した結果であるとします.
 この表から,クラメールの連関係数を求めて,企業の規模別の景気感に差があるかどうか調べてください.カイ2乗検定も行ってください.
解答を見る
φファイ係数)
-表4.4-

X1X2小計
Y1abr1
Y2cdr2
小計c1c2n
 右の表4.4のような2×2クロス集計表に対応するクラメールの連関係数は,簡単な(?)式で表せることが分かっており,φファイ係数と呼ばれる.
 a+b=r1, c+d=r2, a+c=c1, b+d=c2
 a+b+c+d=nとする.

※クラメールの連関係数で求めたらよいのであるが,2×2クロス集計表はよく出てくるので,カイ2乗値の計算まで遡らなくても,この公式に当てはめたら計算できるということです.
【例】
-表4.5-
朝食食べる食べない小計
男子12416
女子101424
小計221840
 右の表4.5は,高校のある学級40人の生徒に朝食を食べるか否かを調査した結果だとします.
 この表から,朝食を食べるか否かに関して男女差があるかどうかφファイ係数を用いて調べると,

 男子の「食べる」,女子の「食べない」の成分が目立っているから,男女差はうかがえる.なお,表4.5に対して,カイ2乗検定(独立性の検定)を行うと,片側確率0.038<0.05となって,独立性の仮説は棄却される.

(クラメールの連関係数→φファイ係数の証明)
-表4.6-観測度数

X1X2小計
Y1aba+b
Y2cdc+d
小計a+cb+dn
-表4.7-期待度数

X1X2小計
Y1a+b
Y2c+d
小計a+cb+dn

 表4.6の観測度数に対応する表4.7の期待度数から,カイ2乗値は次のように計算できる


 第1項の分母,分子にを掛けると



同様にして,第2項第3項第4項









結局

・・・■証明終わり■
【問題4.2】
朝食食べた食べなかった小計
大人152035
子供281240
小計433275
 右の表は,今日の朝食を食べたかどうかを集計した結果だとします.
 この表からφ係数を求めて,大人と子供の朝食の有無について差を調べてください.
解答を見る
確率統計メニューに戻る ...メニューに戻る