→ スマホ用は別頁
(参考)データの尺度
◆質的データ◆ 名義尺度この尺度では,等しいか等しくないかのみ意味があり,幾ら大きいか,何倍大きいかなどの意味はない. 順序尺度大小比較は可能であるが,間隔や比率には意味がない ◆量的データ◆ 間隔尺度目盛が等間隔であるもの.差には意味があるが比率には意味がない. 比例尺度原点(0)の決め方が定まっていて,間隔にも比率にも意味があるもの.和差積商の計算が自由にできる. 0. 目次
このページでは,2つのデータの尺度に応じて,次の4種類に分けて相関関係を扱う.0.1 相関係数(ピアソンの積率相関係数) 量的データ×量的データ
【例】次の表1で示される40人の生徒の数学と理科の得点について,相関係数−1≦r≦1を求める.
|
0.2 順位相関係数(スピアマンの順位相関係数) 順位データ×順位データ
【例】
スピアマンの順位相関係数は,順位をそのまま数値としてピアソンの積率相関係数に当てはめたものとなっている. |
0.3 相関比 質的データ×量的データ
【例】表3のような男女別体重があるときに,相関比(
(全変動)=(群間変動)+(群内変動) と分けて,個人ごとの誤差による変動,すなわち群内変動と,群の違いによる変動に分けて考えて,全変動の中で群間変動が占める割合を示したものです.
|
0.4 連関係数(クラメールの連関係数) 質的データ×質的データ
【例】
カイ2乗の値の計算による独立性の検定と同様の考え方で,表4.1と表4.2の違いをカイ2乗値で表したとき,その値が大きければ「独立でない」「連関が強い」と見なせる.ただし,0≦C≦1となるように,カイ2乗の値を一定の数で割って調整した値を用いる. |
1. 相関係数
ピアソンの積率相関係数量的データ×量的データ
【例】次の表1で示される40人の生徒の数学と理科の得点について,相関係数−1≦r≦1を求める.
《要約1》 ・・・相関係数
【例題1.1】
(解答)
なお,データは右のようなExcelのワークシート上にあるものとして,ワークシート関数やツールを利用してもよいものとします. @パソコンにExcel2007などがインストールされている場合
画面上端のメニューを使う
AWEB上のフリーソフトExcel Onlineで行う場合
データ→データ分析→相関(OK) →入力範囲:$A$1:$B$6,先頭行をラベルとして使うにチェック,出力先:$C$7など [結果]⇒ 0.158
[yの平均]B7に=AVERAGE(B2:B6)と書き込むと,1になる [xの標準偏差]A8に=STDEVP(A2:A6)と書き込むと,1.414になる [yの標準偏差]B8に=STDEVP(B2:B6)と書き込むと,0.894になる []C2に=(A2-A$7)と書き込む.C6まで式のコピー&貼り付け []D2に=(B2-B$7)と書き込む.D6まで式のコピー&貼り付け [積和の計算]C8に=SUMPRODUCT(C2:C6,D2:D6)と書き込むと,1になる [相関係数の計算] D8に=C8/(A8*B8*5)と書き込むと,0.158になる |
【問題1.1】
解答を見る10人の生徒について数学と理科の得点を集計したところ,数学は平均,標準偏差,理科は平均,標準偏差, 共分散はであった. これら10人の生徒の数学と理科の得点の相関係数を求めてください.
【問題1.2】
解答を見る
相関係数=共分散÷(標準偏差x×標準偏差y)=0.5・・・(答) |
《連関・相関係数・・・とりあえずの目安表》 (1) 相関係数が計算できたとき,その数字は大きいのか小さいのか(相関が強いのか弱いのか)を判断するための何らかの基準が欲しいと思うのが分析者の心理である.しかし,扱われている分野などによって,事情が違う.多くの教科書に,明確な「目安表」が掲載されていないのは,数字が一人歩きしてしまうおそれがあるからかもしれない.
|
(2) 表らしいものが何もないと,この教材を読んでいる学生が不安感を持つかもしれませんので,とりあえずの目安表として表1.2を載せておきますが,この数字はただの目安です. そもそも,相関係数は2つのn次元ベクトルのなす角(の余弦:)なので,角度が45°になる場合 を「強い相関がある」に含めるのはおかしいとも言えます. ピアソンの積率相関係数を2つのベクトルのなす角で考えると,表1.2よりも+0.15もしくは+0.2程度境界線を大きくとる方が実態に合うかもしれません. 他方では,4.の項目で述べる「クラメールの連関係数」もしくは「φファイ係数」は,かなり関連していても大きな数字にならない傾向があり,表1.2の境界線をもう少し低くとる方が合うかもしれません |
《要約2》
【例】の平均をで表し, の平均をで表し, の平均をで表し, の平均をで表し, の平均をで表す このとき,相関係数はこれらを用いて次の式で表せる. のとき, 《要約2》の証明 (分子)= |
(分母)の ゆえに, 同様にして, 結局 ・・・■証明終わり■
【問題1.3】
解答を見る2つの変数について のとき,の相関係数を求めてください. |
■無相関の検定■ 相関係数が計算できても,標本の大きさ(データの総数)nが小さな数であるときは,偶然の誤差によって相関係数が何らかの値になっている場合がある.(概して,データの総数nや相関係数rが大きな値であるときは,そのような『ゆらぎ』は少ない). そこで一般に,
(1) 求まった相関係数の有意性の検定を行う.
という2段階で示す方が望ましい.(2) 相関係数が有意な場合は,その相関係数を記載する.有意でなければ,その相関係数を使わない. 無相関検定は,(水準間変動)÷(誤差変動)を計算するF値もしくは,そのルートのt値を用いて行う. データの総数をn,変数(水準)の個数をk=2,相関係数をrとすると (水準間変動)=r2,(誤差変動)1−r2の計算において,各々を自由度で割って自由度1つ分の値で比較する. (全変動)の自由度は,総平均が,その値になるように縛りが入るから,(データの組数)−1 (水準間変動)の自由度は,水準数から1を引く (誤差変動)の自由度は,(データの組数)−(変数の個数)により よって,次のF値もしくはt値により,F検定もしくはt検定を行えばよい.(下の表は,有意水準5%の表) |
|
【例題1.4】
(解答)ある学級の生徒40人について,1学期中間試験で,数学の得点と英語の得点の相関係数が0.32であった.2つの試験とも得点は正規分布に従っているものとして,2つの試験の間に有意な相関があるかどうか,有意水準5%で調べてください. 有意な相関がないもの(母集団相関係数ρ=0)と仮定すると,のとき だから,有意水準5%で有意差あり.帰無仮説は棄却される.よって,有意な相関がある・・・(答) もしくは,Excelのワークシート関数を用いる場合,=TDIST(2.0821, 40−2, 2)=0.0441< 0.05により,有意な相関がある・・・(答) ※TDIST(T値, 自由度, 2は両側検定)の形
もしくは,F値で検定を行う場合(分子の自由度は1,分母の自由度はn−2としてF分布表を見る)だから,有意水準5%で有意差あり.帰無仮説は棄却される.よって,有意な相関がある・・・(答) もしくは,Excelのワークシート関数を用いる場合,=FDIST(4.3351, 1, 40−2)=0.0441< 0.05により,有意な相関がある・・・(答) |
【問題1.5】
解答を見るある学級の生徒6人について,入学試験と1学期中間で,数学の得点の相関係数が0.8であった.2つの試験とも得点は正規分布に従っているものとして,2つの試験の間に有意な相関があるかどうか,有意水準5%で調べてください.
有意な相関がないもの(母集団相関係数ρ=0)と仮定すると,のとき
だから,有意水準5%で有意差なし.帰無仮説は棄却されない.よって,有意な相関はない・・・(答) もしくは,Excelのワークシート関数を用いる場合,=TDIST(2.667, 6−2, 2)=0.056> 0.05により,有意な相関はない・・・(答) ※TDIST(T値, 自由度, 2は両側検定)の形
もしくは,F値で検定を行う場合(分子の自由度は1,分母の自由度はn−2としてF分布表を見る)だから,有意水準5%で有意差なし.帰無仮説は棄却されない.よって,有意な相関はない・・・(答) もしくは,Excelのワークシート関数を用いる場合,=FDIST(7.111, 1, 6−2)=0.056> 0.05により,有意な相関はない・・・(答) |
2. 順位相関係数
順位データ×順位データ
【例】
スピアマンの順位相関係数は,順位をそのまま数値としてピアソンの積率相関係数に当てはめたものとなっており,次の公式で求めることができる.
・・・@
ここに,は2つの順位の差で,例えば上の表で選手1では,選手2ではなどと計算する.・・・@’ |
(公式の説明) ピアソンの積率相関係数では,相関係数は次の公式で求められる. ・・・A この式Aを上記のように定義した順位相関係数に当てはめると,@に等しくなることを示す. まず,1列目には1〜nまでの番号が並んでいるから 総和は 平均値は 分散は 2列目についても,全く同様 これらをAに代入すると ・・・A’ |
他方 ここで,だから したがって A’は よって@’が示された. |
(参考1) Excelで計算する場合,公式@’で計算しても,データ→データ分析→相関として『これらの順位を数値と見なして』求めても同じ結果になる. (参考2) スピアマンの順位相関係数は,もともと順序尺度の引き算などが想定されていない『順位の数値』に対して四則計算を施しているので,理屈の上では危うい所がある.たとえば,マラソンで1位が飛び抜けていて,2位以下が団子状態になっているような場合でも,『等間隔であるかのように扱いながら』相関を調べていることになり,結果を鵜呑みにできない留保含みである点を忘れてはいけない.しかし,他に順位相関を求める方法が見当たらなければ,一応の参考にはなる. (参考3) 同順があるときの順位相関の求め方として,例えば,1位,2位,2位,4位,・・・の場合,1, 2.5, 2.5, 4, ・・・のように同順者に同じ平均値を割り当てる考え方もある.(問題2.2参照) (参考4) 順位相関係数については,他にケンドールの順位相関係数も知られているが,この教材では有名なスピアマンの順位相関係数のみ扱った.
【問題2.1】
解答を見る
これら2人の審査員が付けた順位の相関をスピアマンの順位相関係数で表してください.
小数第3位四捨五入で,0.66になります.
|
【問題2.2】
解答を見る6人の生徒の数学と理科の成績が次の表のようになったとき,この2教科の成績のスピアマンの順位相関係数を求めてください.
※同順位のデータがあるときの順位相関については,様々な取り扱い方がある.(A) 複雑になるので扱わないという立場もある.(B) 同順位のデータには等しく平均順位を与えるという立場もある.
この問題は,(B)の立場で解いてください. |
生徒1と生徒2の数学は,本来2位,3位であるべきところを同順の2位になっているから,平均順位として両名とも2.5位とする.同様にして,理科の順位1位,1位→1.5位,1.5位,3位,3位→3.5位,3.5位として,次の表を作る.(実際の小数はもう少し桁数が多くなる)
・・・@ の公式によって順位相関係数を求めるものもある(その立場では0.586になる) しかし,同順のものに平均順位を与えると標準偏差が変わるので@とピアソンの積率相関係数に当てはめたAとは等しくならない. ・・・A 筆者は,Aで計算した0.567を解答とする. |
3. 相関比
質的データ×量的データ
表3のような男女別体重があるときに,相関比を
これは, (全変動)=(群間変動)+(群内変動) と分けて,個人ごとの誤差による変動,すなわち群内変動と,群の違いによる変動に分けて考えて,全変動の中で群間変動が占める割合を示したものになる.
なお,書物によって「群」「級」「列」「グループ」などの用語が用いられる.この問題で,男子,女子という2つの「列」に書かれたデータについて述べているというときは,相関比とは,全変動における列による効果の割合を調べていることになり,男子と女子という2つの「級」が合併されたデータと考えているときは,個人差を取り除いた級による差が全変動に占める割合を調べていることになる.
|
(群間変動)=(全変動)−(群内変動) であるから,群内変動の方が求めやすいときは,
|
(実際の計算)---小数は第1位まで表示 表3において,男子の平均値,女子の平均値,全体の平均値を求めておく. 各々のデータについて,群内,全体の両方に付いて,偏差→偏差平方→偏差平方和を求める.
男子の群内偏差平方和=男子の群内変動 → 204になる 女子の群内偏差平方和=女子の群内変動 → 133.2になる 全体の偏差平方和=全変動 → 993.1になる 群間変動は → 655.9になる 相関比は → 0.66になる |
(備考1) であるが,一般には,高校数学Tの展開公式では,次のようになる. ここではΣ記号に関係のない定数であるが,次の式に注意 したがって,次の関係式が成り立つ(男子の8人) 同様にして(女子の5人) これらを加えると 全変動 群内変動 群間変動 (備考2) 男子平均,女子平均,全体平均だから群間変動は次のように計算できる → 655.9になる これを使えば,上記の群内変動の計算を要しない. Excelを使う場合,相関比の求め方[まとめ] (1)表3.1のように,順に群内偏差,同左2乗,全体偏差,同2乗を組み立てて行くのが基本です. (2)上記の備考2に述べたように,平均値から群間変動を求める方法があります. (3)ExcelのVARP()関数を使えば,平均値や2乗を個別に計算しなくても分散[不偏分散ではない方,単純に記述統計として求めたもの]が求まります.これに個数を掛けると変動に戻ります.そこで,群ごとの分散×個数,全体の分散×個数で,群内変動と全変動が求まるので,これにより相関比が求まります. (4)Excelのデータ→データ分析→分散分析:一元配置に進むと,変動要因がグループ間,グループ内,合計に分けて示されるので,グループ間/合計により,相関比が直接計算できます.
※なお,相関係数の場合と同様に,相関比の値がどの位なら相関が強い(弱い)といえるのかという基準は,必ずしも定説的なものがありません.分野によって話が変わります.
ただし,(4)の分散分析のついでに出力されるP-値を見ると,0.05以上かどうかで有意水準5%で群間変動が見られるかどうかの目安にできます.
※また,Excelの分散分析:一元配置で出力される「分散」は不偏分散VAR()で,この教材で想定している分散VARP()よりも少し大きいが,下段の表に示される「変動」は,この教材での取り扱いと一致する.
|
【問題3.1】
解答を見る次の表は,ある店で果物が売れた時間帯(0〜23)を記録したものだとします.(架空データ)
特に,(4)の方法では,P-値を用いて,有意な群間変動があるといえるかどうかも判断してください.
(1) 次のように表を左から右へ,上から下へ書き込んで行き,最後に相関比を求める.(なお,Excel上は小数桁数が多いが,この画面上は小数第1位まで表示した)
(2) みかん平均=11, りんご平均=17.6, かき平均=7.5, 全体平均=12.6だから (群間変動)=(11−12.6)×3+(17.6−12.6)×5+(7.5−12.6)×4=236.7 (全変動)=428.9 (相関比)=236.7/428.9=0.55 (3) みかんの分散=10.7→3倍→みかんの群内変動=32.0 りんごの分散=15.4→5倍→リンゴの群内変動=77.2 かきの分散=20.8→4倍→かきの群内変動=83.0 全体の分散=35.7→12倍→全変動=428.9 (相関比)=1−(32.0+77.2+83.0)/428.9=0.55 (4) -表3.2-の形から,(Excelで)データ→データ分析→分散分析:一元配置に進む 列見出し(みかん〜かき)も含めて,みかん,かきの空欄も含めて入力範囲を指定する.
表により,(相関比)=236.7/428.9=0.55 P-値が0.03<0.05だから有意水準5%で群間変動が見られる |
【問題3.2】
解答を見る
この表から,教える教員が異なれば,生徒の得点に有意差を生じるといえるかどうか,根拠も示して判断してください.
まとめに示した(1)〜(4)のどの方法で求めてもよいが,相関比は0.53になる.
(4)で行うと,P-値が0.003<0.05となり,有意水準5%で群間変動が見られるので,その教材を習う前の学力が等しいと見なせるときは「教える教員が異なれば,生徒の得点に有意差を生じるといえる」.事前の学力が等しいと言えなければ,簡単には言えない. (教員1が担当する群の平均点が低すぎる.他の群には有意差はない.) |
4. 連関係数
質的データ×質的データ
【例】
カイ2乗の値の計算による独立性の検定と同様の考え方で,表4.1と表4.2の違いをカイ2乗値で表したとき,その値が大きければ「独立でない」「連関が強い」と見なせる.ただし,0≦C≦1となるように,カイ2乗の値を一定の数で割って調整した値を用いる. |
(簡単な例でイメージ作り)
例えば,右の表4.1.1の場合,産地Aなら優,Bなら良,Cなら可と決まってしまう.逆に,優良可の方から見ても産地が決まる.これが「完全な連関が見られる場合で,C=1」に対応する.
必ずしも対角線上に並んでいる必要はなく,表4.1.2のように並んでいる場合,後に示す計算方法により,C=0.90と1に近い値になる.
これに対して,表4.1.3の場合,産地Aの行を横に見ると,15:6:9=50:20:30,産地Bの行を横に見ると,25:10:15=50:20:30,産地Cの行を横に見ると,10:4:6=50:20:30となって,産地に依らず等級が同じになっている.このことは縦に見ても同様.このように,周辺和の比率で各成分が構成されているとき,産地と等級は独立=無関係であると言える.(C=0になる) |
(公式の見方) 表4.1の形で与えられたクロス集計表から定まるクラメールの連関係数をで表すと(後で出てくるギリシャ文字の関数に対応するアルファベットので表すことも多い)
Cはクラメール(Cramer)の頭文字
(*1) ただし,は総度数(表4.1では100)0≦C≦1:とり得る値の範囲(負はない) C=0:全く連関がない=独立 C=1:完全な連関がある=一方が決まれば,他方も決まる ※連関係数には,この他 で定義されるピアソンの連関係数などもあり,単に「連関係数」と述べてもどれか分からないことがあるので,上記の値を指すときは「クラメールの連関係数」と明示する方がよい. (*2) は行数と列数の小さい方(等しいときはその値).表4.1では,だからとする (*3) 分母のN(k−1)は,連関係数の値の範囲を0≦C≦1とするための定数 (*4) カイ2乗の値は次のように求める 表4.1の形で与えられるクロス集計表の各成分は観測度数を表している.表4.1の各成分を棚上げにして,その周辺和だけを見ると表4.2のようになっている.
表4.2’において,周辺和 a1・〜a3・, a・1〜a・3から期待度数を埋める.期待度数は,行と列が独立であると仮定した場合の度数を表している. ところで,確率の基本公式に「独立事象の乗法定理」というのがあって,2つの事象x,yが独立であるときに,xyの両方とも起こる確率は,それらの「確率の積」に等しい. |
表4.2は度数で書かれているが,これを確率に直した表4.3(表4.2のすべての成分をNで割ったもの)において,行と列が「独立」であるとき,例えば
b11=b1・×b・1
で求まるということです.だから,例えば,表4.2のa32を直接埋めるには
b12=b1・×b・2 ・・・ ・・・ b32=b3・×b・2 b33=b3・×b・3
a3・を確率に直すと
a・2を確率に直すと 独立事象の乗法定理により Nを掛けて度数に戻すと
ここで,各成分について次の値を求める.
この値をすべての成分について加えたものがカイ2乗である.すなわち 最後に,連関係数の公式に代入すると ※クラメールの連関係数が,どの位の数値であれば「連関が強い」「弱い」と言えるのかについては,扱われているデータの分野によって異なるなど,一律の基準はない. 参考として,クラメールの連関係数は,小さな値になり易く,著者によってはC=0.1辺りでも連関を考えるようである. なお,元になっているカイ2乗が有意でなければこの議論はできないから,カイ2乗検定を見ておくことはできる. この表4.1の場合,独立性の検定の結果,P-値は0.19>0.05となって,行や列に有意差は見られない.(=独立と仮定しても棄却されない) |
(参考:カイ検定のやり方) (1) EXCELのワークシート関数 CHITEST()を利用する方法
表4.5のように観測度数一覧が与えられた場合,この表の縦横欄の独立性の検定をカイ2乗を使って行うには 表4.5とは別に,表4.6のように期待度数の表を準備します.例えば1行2列の産地A,等級良の成分は,
次に, =CHITEST(観測度数の範囲, 期待度数の範囲)
により,どこかのセルにカイ2乗検定の結果を書みます.なお,観測度数の範囲,期待度数の範囲を指定するときに,桃色,水色の背景色で示したように行見出し(優良可),列見出し(産地ABC)のいずれも含まない数値のみの範囲とします.⇒ これにより書き込まれる結果はP-値で,それが0.05よりも小さければ有意水準5%で独立性が棄却されるというロジックですが,この問題の場合は0.197になり,独立性の仮定は棄却されません. |
(2) 地道にカイ2乗値を求めていく場合
のよって計算する. このようにして得られた黄色の背景色の範囲をすべて加えたもの =SUM()がカイ2乗値である. 最後に,カイ2乗検定を行うには, =CHIDIST(カイ2乗値, 自由度)
と書き込むが,カイ2乗値は上記で求めた値,自由度はm行n列の場合,(m−1)(n−1)とする.上記の例では,3行3列のデータだから,2×2=4が自由度になる.これにより,(1)と同じP-値が得られるので,有意水準5%の検定ならば,0.05よりも大きいか小さいかを見ればよい. |
【問題4.1】
解答を見る
この表から,クラメールの連関係数を求めて,企業の規模別の景気感に差があるかどうか調べてください.カイ2乗検定も行ってください.
※カイ2乗検定では,P-値0.04<0.05で,有意差あり |
(
a+b=r1, c+d=r2, a+c=c1, b+d=c2 a+b+c+d=nとする. ※クラメールの連関係数で求めたらよいのであるが,2×2クロス集計表はよく出てくるので,カイ2乗値の計算まで遡らなくても,この公式に当てはめたら計算できるということです. 【例】
この表から,朝食を食べるか否かに関して男女差があるかどうかφファイ係数を用いて調べると,
男子の「食べる」,女子の「食べない」の成分が目立っているから,男女差はうかがえる.なお,表4.5に対して,カイ2乗検定(独立性の検定)を行うと,片側確率0.038<0.05となって,独立性の仮説は棄却される.
|
(クラメールの連関係数→φファイ係数の証明)
表4.6の観測度数に対応する表4.7の期待度数から,カイ2乗値は次のように計算できる 第1項の分母,分子にを掛けると 同様にして,第2項,第3項,第4項は ,,, |
結局 ・・・■証明終わり■
【問題4.2】
解答を見る
この表からφ係数を求めて,大人と子供の朝食の有無について差を調べてください. |