■Excel:相関係数,回帰直線 ◇このページで利用する関数等の一覧◇
|
|
■操作方法の要約■ Excelを用いて,右の表1のようなデータ(2列)から図1のような散布図を作成し,相関係数,回帰直線を求めるには (1) 散布図の作成方法は[こちら] (2) 図1の(2) 回帰直線 を表示するには: 散布図のマーカー(右図では青の点)の1つを右クリックし,「近似曲線の追加」→「線形近似」(3) 図1の(3)(4) 回帰直線,相関係数Rの2乗を表示するには: ●1(4) 相関係数を求め,無相関の検定をするには (実際には相関がないものに回帰直線を求めてもだめなので相関係数を先に求める方がよい) ●1(5) 図1の(5)のような推定値の標準誤差,信頼区間を求めるには =STEYX(系列1の範囲,系列2の範囲) ==> 標準誤差Seとなる.(6) 図1の(6)のように与えられたx座標に対応する回帰直線のy座標を数値として求めるには =TREND(既知のy,既知のx,新しいx,1) または =FORECAST(新しいx,既知のy,既知のx) |
※ 推定値の標準誤差Seは,Excelの組み込み関数 =STEYX(系列1の範囲,系列2の範囲)で求められるが,これは yとyの推定値y’の誤差から計算される標準偏差 両側検定用のr表
|
◇回帰直線◇ 中学校の頃には理科の実験結果をまとめるときに,次の図のように点が「上にも下にも半分ずつ来るように」「直線からなるべく離れないように」目分量で直線を引いていたが,これを数学的に求める. (途中経過略:結果のみ示す.) xk の平均を m, yk の平均を n とおくと b = n - am ※ 統計の書物では,数学と違って,定数を先に書いて Excelグラフでは数学の表示が踏襲されているので,ここでは数学の書き方に従って y = ax + b の形で表示した. ※ ここで求めたa,bを用いて元いてy = ax + bの方程式にしたものが図1(3)でグラフに追加される回帰直線の方程式に一致する.(点検用に併用するとよい.) ※ 回帰直線のグラフおよびその方程式は,相関が認められないような分布についても形式的に出てくる (直線の中で誤差の2乗和が一番小さいものを求めているだけだから).そこで,これを使うかどうかは,次に述べる相関係数の検定をしてから判断することが重要.(右の図2のような場合,x,yにはほとんど相関がなく,形式的に求まる回帰直線にも利用価値がない.) したがって,まず相関係数を求め,相関係数の検定を行って相関があると確かめた上で回帰直線を求める方がよい. |
※何に回帰するのか・・・子の身長は親の身長と強い相関があるが,最終的に親の身長から予測される値よりも少し先祖返りするということで,回帰という名が付けられたらしい.(こんなイメージか?) ※ 左に示したa,bの計算をExcelで行うには次のように順次表を組み立てて行き,最後に和と商を求めればよい.
※ Excelのグラフでは直線近似だけでなく,2次関数,・・・など曲線近似の結果も表示されるが,ここでは直線近似のみを扱う. 図2 |
||||||||||||||||||||||||||||||||||||
◇相関係数◇ ○ xが増えるとyも増えるとき,x,yは正の相関があるという. xk の平均を m, yk の平均を n とおくと イ) r が0に近いほど相関は弱くなる. ○ 相関係数の検定(母相関係数ρ=0の検定) 標本相関係数をr,母相関係数をρとするとき,ρ=0ならば無相関となる.そこで,ρ=0という帰無仮説を立てて,これが棄却されるときに「相関がある」と考える. rの値に対して r表では,各自由度(標本の組の数-2),有意水準αに対して,この値よりも |r| が大きければρ=0が棄却され,相関があると判断できる.α=0.05でρ=0が棄却されれば,「相関がある」,α=0.01でρ=0が棄却されれば「強い相関がある」と考える.(ただし,両側検定用の値なので,片側検定に用いるときはαとして2倍の値を用いる.) |
ピアソンの積率相関係数:[概要] i) 絶対温度で測れば強い相関が見られるが,摂氏温度で測れば相関がないというような,原点の取り方で相関が変わるのを防ぐために,x,yとも平均を原点にする. x’y’<0となる点が多ければ,負の相関が見られる. x’y’>0,x’y’<0となる点が同程度ならほとんど相関がない. ==> Σx’y’すなわちΣ(xk - m)(yk - n)を候補にする. ==> r = |
例 別添ファイル( correl.xls )Sheet1のデータについて, (1) 散布図を作成し, (2) 相関係数を求め,無相関の検定をし,(3) 回帰直線を表示し, (4) 回帰直線の方程式を求め, (5) 推定値の標準誤差, (6) x=20のときのyの予測値, (7) x=20のときのy予測値の95%信頼区間 を求めよ. |
(解答) (1) まず散布図を作成し,(3)近似曲線の追加:線形近似とする. (4) 近似直線の右クリックで回帰直線の方程式,R-2乗を表示 もしくは 回帰直線の方程式は b = n - am もしくは =SLOPE(B2:B51,A2:A51) によりa = 1.428,=INTERCEPT(B2:B51,A2:A51) により b = 10.48 (2) 相関係数は =SQRT(R2の値)により r = 0.827 もしくは, メニューから「ツール」→「分析ツール」→「相関」により r =0 .827 もしくは =CORREL(A1:A41,B1:B41) により r = 0.827 もしくは =PEARSON(A1:A41,B1:B41) により r = 0.827 もしくは r表より,自由度38で有意水準α=0.05の場合, r = 約0.28,α=0.01の場合r=約0.36 だから,0.827は強い相関がある. (5) 推定値の標準誤差は =STEYX(B2:B41,A2:A41) により Se = 3.128 もしくは y=1.6964x-0.3196 または TREND($B$2:$B$41,$A$2:$A$41,A2,1) で各々のxに対するyの推定値を求め(これをy’とおく), もしくは =TREND($B$2:$B$41,$A$2:$A$41,20,1) で y’= 33.609 もしくは =FORCAST($B$2:$B$41,$A$2:$A$41,20,1) で y’= 33.609 (7) 33.609±1.96Se = 33.609±6.131により 27.478≦y’≦39.740 |
「事例でわかる統計解析の基本」(*1)(柳谷晃著/日本能率協会マネジメントセンター)p.161には,夏の気温や湿度とビール売上高の相関が紹介されている.また,「やさしい統計学」(*2)(田畑吉雄著/現代数学社)p.123には各都市の街灯の数と性犯罪の発生件数の相関が紹介されている.この話を元に相関と因果関係について考察してみる.まず,右の図式1においては,相関関係,因果関係とも認められる.(*1)では気温よりもむしろ湿度との関係が強いことが示されているが,ここでは話を簡単にするために気温のみに絞る. 気温が高くなっても,子どもはビールを飲まない.牛乳や清涼飲料水が売れる.そこで,夏の気温と牛乳,清涼飲料水の売れ行きも相関,因果関係ともありそうだ.クーラーを使うので,電力消費量も同様.(図式2) 次に,各都市を比較すると,街灯の数と性犯罪の数には相関がある.しかし,街灯を減らしても性犯罪は減らない.(*2) |
(図式1) 相関:○,因果関係:○ 夏の気温・湿度→ビールの消費量 (図式2) 相関関係:@ABCどの組合わせにも有り 因果関係:@→A(またはBまたはC)に有り (図式3) ABは相関:○,因果関係:× |
逆に,因果関係があるが,相関関係はない例を考えてみる.母馬:Aが子馬:Bを産み,子馬:Bが競馬で優勝したとき 自然的な因果関係としては,ある出来事Aが起こらなければ,他の出来事Bは起こらなかったといえるとき,AはBと因果関係があるとする.そこで,母馬:Aが子馬:Bを産んだことは,Bが優勝したことと自然的な因果関係がある. 次に,馬の世界では,母が強いと子どもも強いことが多いので,子馬:Bの成績と子馬:Cの成績にも相関がある.しかし,因果関係はない. |
(図式4) @Aの因果関係:○,ABの相関関係:○△ @母馬:A → 子馬:B → 競馬の成績A └→子馬:C → 競馬の成績B |
(まとめ) 「あることが起こらなければ,他のあることが起こらない」といえるときは,これらの間には,自然的な因果関係がある.しかし,そのことが起こればかなりの確率で他のことが起こるといえる場合しか社会的な因果関係は認められない. 右図式@CDのように因果関係がある事象(直系の子孫となる事象)には,相関が認められるものが多い.(因果関係があっても相関がないこともある--優秀な親の子どもが必ず優秀とは限らない.)右図式5のDEのように共通の親事象から発生しているもの同士にはどちら側を説明変数にしても相関が認められることがある.しかし,DEには因果関係はない.(それぞれの子どもが親に似ているだけ) 社会現象は複雑に関連し合っているので原因・結果の関係は必ずしも明らかでないことが多い.むしろ,右のFGHのように関連があるのかどうか分からないことの方が多い.このとき,相関関係が認められれば様々な角度から因果関係を調べていくきっかけとなる. |
(図式5) 相関と因果関係,例2つずつ: (相関,因果関係が認められるもの) ペルー沖の海水温の高低→世界的な異常気象 1日当りの喫煙本数×年数→肺ガンの発生率 (両論があり,よく分からないもの)2007.3現在 丸山ワクチン→?ガンの治療 FM電波の異常,地震雲→?地震の予知 (相関を調べてほしいという段階)2007.3現在 インフルエンザ治療薬の服用→?異常行動 携帯電話の電波帯域→?脳腫瘍の発生 (部分集合の取り方で相関の有無が分かれるもの) 入試の成績→入学後の成績 (限られた部分集合を合格させる学校:相関なし,ほぼ全員合格させる学校:相関あり) 「弘法さんと天神さんは仲が悪い.」・・・「弘法さん」とは弘法大師の縁日(毎月21日)のこと,「天神さん」とは菅原道真の縁日(毎月25日)のこと.表題の言い伝えは,21日が晴(雨)なら25日は雨(晴)になるということを表わしている.長年の経験から気づいた負の相関関係を表わしたものと考えられる. 冬場の天候は三寒四温といわれ,4日後は天候が変わる確率が高いといえば因果関係についての今日的な説明になる. (因果関係はないが,相関関係は考えられるもの) 「他人に風邪をうつせば自分は直る」という俗説.・・・上記図式3と同様に,@に「数日間の経過」があってABに各々その結果として「自分について,日にち薬で風邪が直ってくる」ことと,「他人について,保菌・潜伏期間が経過して風邪の症状が出る」ことが平行して起こるという経験を持つ人が多いかもしれない. |
■[個別の頁からの質問に対する回答][相関係数,回帰直線について/16.12.8]
アンケート項目4,の手前、
『r表より,自由度48で』というくだりですが、もしかしたら38、ではないでしょうか。
公開されているデータのnがn=40だからです。
=>[作者]:連絡ありがとう.訂正しました. |