■相関分析 【要点】 ・以下は,よく使われるもの・簡単に求められるもののみ. ・統計データの種類(尺度水準)についてはscale1.htm参照 (※ データが標本である場合には,以下で求めているのは標本の相関係数となるので,母相関係数の推定・検定という問題が別に存在することとなるがこのページでは扱っていない.) (1) 右の表1のように,データが「量的変数」(数値)と「量的変数」(数値)の組合わせで与えられるとき,相関係数の計算にはピアソンの積率相関係数 r を利用することができる.(※このページ参照) 相関係数 r は -1≦ r ≦ 1を満たし,r>0のとき正の相関,r<0のとき負の相関,rが0付近のとき相関がないと考える. ア) 相関係数の定義から求めるときは次の定義による. (ただし,mはxkの平均,nはykの平均) |
表1
※ ピアソンの積率相関係数は外れ値(例外的に飛び離れた値)の影響を受けやすく, I) 他のn-1個の標本だけなら相関が見られないときに外れ値を含めただけで「相関らしいものができてしまう場合」や, II) 逆に,他のn-1個だけならば相関が見られるときに外れ値を含めただけで「相関がなくなる場合」がある ので,数値計算だけでなく散布図によって外れ値の存在を確認しておくことが重要だと言われている. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(2) 右の表2のように,データが「量的変数」(数値)と「質的変数」(カテゴリーデータ)の組合わせで与えられるときは,相関比を利用することができる. 平均値の差が有意差と見なせるかどうかは分散分析によって判断できるが,河川と鮎の体長には,次の式で定義される相関比η2(イータ2乗)が利用できる. 相関比η2 = (群間変動)/(全変動) ※ 「一元配置の分散分析」と同じ考え方であるが,分母が全変動となっているので0≦η2≦1となる. |
表2 釣れた鮎の体長(架空データ)
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(3) 右の表3のように,デ−タが「順位尺度」の組で与えられているとき,スピアマンの順位相関係数ρを利用することができる. ア) (例) 1位,2位,2位,4位,5位,・・・ ===> 2位の2つは,2位,3位を分けたものだから,各々2.5位とし, 1,2.5,2.5,4,5,・・・ とする. イ) スピアマンの順位相関係数は,順位を単なる数値と見なして「ピアソンの積率相関係数」に当てはめたものに等しいので,Excelの分析ツールで単に相関を出力したものと同じになる. ※ スピアマンの順位相関係数は,「順序尺度」のデータに四則演算を行うため,理論的な弱点が指摘されることがある. |
表3 県庁所在都市における1世帯当り消費量(g)の多い順
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(4) 右の表4ように,データが「質的変数」(カテゴリーデータ)と「質的変数」のクロス集計表(分割表)で与えられるとき, または,右の表5のように「量的変数」の組が階級分けしてクロス集計のみ与えられ,元データが不明のとき(元データがあるときはピアソンの相関係数でやればよい), クラメールの連関係数(クラメールのV,独立係数)を利用することができる. これは,χ2分布を用いた「独立性の検定」を少し変形したものとなっている. ※ クロス集計表(分割表)の作り方はこのページ 右の表O,表Eを用いて3行4列で解説する. χ2値は右の表Oのような観測値に対して,その周辺和から比例配分した期待度数を表Eのように作成し, χ2 = を計算したものであるが,この値は 0≦χ2<∞ の値をとる.(項目1〜4と項目A〜Cが独立のとき,χ2値は0となる.) この値χ2を要素の個数によらず0〜1の値をとるように調整した次の値をクラメールの連関係数(独立係数)という. |
表4
表O
|
(1) ア) ピアソンの積率相関係数を定義に従って求める方法:(ただし,この方法では2つずつ求めるので,列数が多いと組合わせの数だけ求めることとなり,作業量は多くなる.) 右の表6のように,x1,x2が与えられたとき,これらの平均を各々m,nとすると, i) B12に=AVERAGE(B2:B11),これを12にコピー・貼り付け m= 51.6,n=51.9となる. ii) D列に(x1の偏差)=(x1の各値)-(x1の平均)の式を書く. D2には =B2-B$12 これをC11までコピー・貼り付け,E列も同様 iii) F列のこれらの積を書き込む F2は =D2*E2 iv) X1の分散を求める: D13に =SUMSQ(D2:D11) x2の分散も求める: E13に=SUMSQ(E2:E11) (※SUMSQ()は2乗の和を求める関数) v) x1,x2の共分散を求める:F13に =SUM(F2:F11) vi) x1,x2の相関係数を求める: D14に =F13/SQRT(D13*E13) |
表6
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(1) イ) ピアソンの積率相関係数をExcelの分析ツールを利用して求める方法: 右の表7において,国語〜英語までの5教科の相関係数を一度に求めるには: i) メニュー→ツール→分析ツール→相関→OK ii) 入力元 入力範囲 先頭行のラベルも含めてB1:F11を範囲とする. データ方向 列 ラベル チェック → OK iii) 右の表8のように出力される.(小数点以下の桁数はもっと多い.) 例えば,数学と理科の得点の相関係数は0.876と読む. (自分自身との相関係数は1となっている.) ※ 相関係数行列が必要なときは,「コピーして,編集→(どこか作業範囲に)形式を選択して貼り付け→行と列を入れ替える さらに,対角成分のみ取り除いてから 編集→形式を選択して貼り付け→値,加算」 とすればできる. |
表7
|
(2) 右の表9のように質的変数(カテゴリーデータ)と量的変数(数値)の組で与えられる変数間の相関比を求めるには: ア) 定義に従って計算するとき まず,質的変数をキーにしてソートし(表10),各カテゴリーごとに列に並べると表11のようになる. i) (群内変動)=Σ(各値-各群の平均値)2を求める. 群内平均 A14に=AVERAGE(A2:A12) これをコピーし,B14:C14に貼り付け 全体平均 A16に=AVERAGE(A2:C12) 偏差 E2に =A2-A$14 これをコピーし,G12まで貼り付け 群内変動 A群:E13に =SUMSQ(E2:E12) これをコピーし,G13まで貼り付け H13に =SUM(E13:G13) =55.1となる. ii) (群間変動)=Σ(群平均-全体平均)2 (ただし,各々の群の標本数を掛けるのを忘れないことが重要) E14に =COUNT(A2:A12)*(A14-$A$16)^2 これをコピーし,G14まで貼り付け H14に=SUM(E14:G14) = 47.5となる. iii) (全変動)=(群内変動)+(群間変動) H15に =SUM(H13:H14) = 102.6となる. (※ Σ(各値-全体平均)2と等しくなる) jv) (相関比)=(群間平均)/(全体平均) H16に =P14/P15 =0.463となる. イ) 分析ツールを利用するとき メニュー→ツール→分析ツール→分散分析:一元配置 で,表11の表を(表10ではない)入力範囲として指定すると,表12のように出力されるが,この表から (相関比)=(群間平均)/(全体平均) を計算すればよい. |
表9 釣れた鮎の体長と河川の関係
|
(3) 右の表13のような順位表から2つの順位の相関を調べたいとき.(右の例は,魚介類の消費量と肉類の消費量の相関を調べようとしたもの:魚をよく食べる都市は肉は少ないのではないかとの仮説を立てて検証してみる.) ア) スピアマンの順位相関係数ρを次の定義式で計算する方法 i) 順位の差を求める.D2に =B2-C2 この式をコピーしてD50まで貼り付け. ii) Σ(順位差)2 を求める. D51に =SUMSQ(D2:D50) iii) ρの定義式に当てはめる: D52に =1-6*D51/(49^3-49) ※ 相関係数は0.20となり,相関はほとんど見られないが,魚が多いと肉が少ないのでなく,弱い正の相関となる・・・肉も魚もよく食べる都市,肉も魚もあまり食べない都市がある.(右の散布図参照・・・順位相関を散布図にするとき,左と下が数値が小=順位が上位になるので注意) イ) 分析ツールを用いる方法は,(1) イ)と同様(順位を数値として扱う.) |
表13 県庁所在都市における1世帯当り消費量(g)
の多い順
|
(4) 右の表14のように質問項目Q1とQ2に対する回答についてクラメールの連関係数(独立係数)を求めるには: i) 表15 のように周辺和を元にしてア〜エとA〜Dが独立(無相関)と仮定した場合の期待度数を計算する. B9に =B$13*$F9/$F$13 この式をコピーし,E12まで貼り付け. ii) 表16 のように各セルについて (観測度数 - 期待度数)2/(期待度数) を計算する: B16に =(B2-B9)^2/B9 この式をコピーし,E19まで貼り付け. iii) χ2値を求める: F20に =SUM(B16:E19) iv) クラメールの連関係数(独立係数)を求める: 総度数は N= 50,行数と列数の内小さい方は(どちらでも)4だから =SQRT(F20/(50*3)) により 0.399 となる. |
表14
|
■[個別の頁からの質問に対する回答][相関分析について/16.12.20]
大変わかりやすい説明でした。
最後のクラメールの計算についてわからない点があります。手元の教科書ではクロス表の縦計、横計に1つでも「0」がある場合、独立係数は計算できません、とあります。これはそれぞれ表14で言うと「ア」や「A」と答えた人の合計値を差し示し、「B2:E5」の黄色の範囲にある個別の回答者数は「0」であっても構わないということでしょうか?また2×2のクロス集計ではよくイエーツの補正が紹介されていますが、それ以上のクロス表については記載が見つかりません。このような場合補正方法はないのでしょうか?それともマス数が多く数値が十分あるため、補正しなくとも相関性について十分な吟味をすることができる、という考えがなされているのでしょうか?このような細かい疑問点についても書かれていると個人的に大変うれしいです。
=>[作者]:連絡ありがとう.縦または横の合計が0の場合,期待度数の計算で分母が0になるのでできないと思います.しかし個別の度数が0であることは問題ありません. カイ2乗検定で2×2のクロス表の場合だけはカテゴリーの併合を行ってしまうと表がなくなってしまうのに対して,マス数が大きな表ではどのマスの期待度数も4より大きくなるようにカテゴリーの併合を行うことができるので問題がないと考えます. |