■決定係数とは? (このページは解説が中心のページで,重回帰分析に登場する決定係数の説明を行っています.)
◇要点◇
回帰分析を行うと,実測値を近似する回帰式(予測値)が得られるが,得られた回帰式が常によく当てはまっているとは限らない. 右図1(赤で示した点が実測値,青で示した式が回帰式)では,回帰式が実測値によく当てはまっているが,右図2では,回帰式と実測値の隔たりが大きく,回帰式の当てはまりはよくない.このような回帰式の当てはまり具合(回帰分析の精度)を客観的な指標で表わすことを考える. (1) Excelのツールで回帰分析を行うと,次のような表が出力される.この表の見方を以下において解説する.
決定係数は(重)相関係数Rの2乗に等しく,R2と書かれる.(3) データの個数(標本の大きさ,観測数)が小さいときも考えると,自由度調整済決定係数を用いる方がよい. |
図1 よく当てはまっている回帰式 図2 当てはまりのよくない回帰式 |
◇ 相関係数,重相関係数 Rとは 右のような標本の大きさ10(データの個数10)の x , y の値について, y の平均値を m ,y の予測値 を で表わすとき,m =6.5 (すべてのデータに共通)であるが, の値は,次の(1)(2)(3)のいずれか1つで得られる. (1) TREND関数を用いて値を求めるときは, =TREND($B$2:$B$11,$A$2:$A$11,A2,1) のように =TREND(実測値全体のyの範囲, 全体のxの範囲,値を求めたいもののxのセル,1) とすればよい. (2) 右のように y と が並べてあるときには,分析ツールの相関分析で,「yと の列をまとめて指定」しても相関係数が得られる. (ここで求めているのは,x と yの相関係数ではなく,y とその予測値 との相関係数であることに注意) (3) ツールの回帰分析から得られる係数を用いるときは,各々のxの値に対して =1.08+0.985x を計算するとよい. ○ y と の値の相関係数Rは =CORREL(実測値yの範囲,予測値 の範囲)で求められる. なお,Excelツールの回帰分析の出力はプログラムで行われるめか,説明変数が1つの場合も表記上は重相関Rとなっている. ○ 説明変数(独立変数)が2つ以上のときも同様にして求められるが,このときは重相関係数R と呼ばれる. |
表1
セルD2に=TREND($C$2:$C$6,$A$2:$B$6,A2:B2,1) これをコピーして,D3:D6に貼り付け. 重相関係数R: 1) =CORREL(C2:C6,D2:D6) または, 2) ツール→分析ツール→相関→入力範囲:$C$1:$D$6 または, 3) ツール→分析ツール→回帰分析→ 入力Y範囲:$C$1:$C$6 入力X 範囲:$A$1:$B$6 で出力される表のうち重相関R |
◇ 決定係数 R2とは 実測値を y,予測値を =ax+b,平均値を m で表わすと, 実測値 y の平均値 m との差は,予測値(回帰)による部分と,残りの部分(残差)に分けられる. ※ Σ(yk-m)2 のような「差の2乗の和」は,「偏差平方和」,「変動」とも呼ばれる.ここで,(総変動)に対する(予測値による変動)の比を決定係数,あるいは,寄与率といい,総変動のうち回帰式で説明できる変動の割合を表わす. すなわち, (決定係数) R2= あるいは, (寄与率) R2= あるいは, (寄与率)R2=1 - いずれも,変動を分散に置き換えて分母分子を標本の大きさで割ったものとしてもよい. (寄与率)R2=1 - ・・・(A) 決定係数は,(重)相関係数Rの2乗に等しいことが知られており,R2で表わされる. y と の相関係数 R はつねに,0≦R≦1を満たし,この区間においては,常に R2≦R が成り立つ.(→※※) (決定係数≦相関係数 であることに注意) 例 相関係数 R = 0.9 ⇔ 決定係数 R2 = 0.81 ※ 回帰式がよく当てはまっていると言えるためには,決定係数が幾らあればよいのか一概にはいえないが,0.7とか0.8とか全変動の7割,8割程度の説明ができればよく当てはまっていると考えることが多い. |
通常の文字式の変形においては,z=x+y のとき, z2=x2+2xy+y2 となるが,総和計算 =(x1 ,x2 , ··· , xn), =(y1 ,y2 , ··· , yn) が独立ならば, Σxkyk=0となり, この関係は,2つの確率変数 x , y が独立なとき,それらの分散について成り立つ次の関係式と同様(確率変数の変換参照). (※※→) |
◇ 自由度調整済決定係数とは データの個数(標本の大きさ)を n (個), 説明変数(独立変数)の個数を p (個)とするとき,n≧ p+1 のとき,重回帰分析を行うことができる.(n<p+1 のときは数学的に不定となる.) ただし,n=p+1 例えば,n=3 , p=2 の場合,右の表3において上から3行だけのデータの場合のように,x1 , x2 を独立変数としてy を従属変数とする3次元空間において,(n=3の)3点の座標を与えて平面を求めることとなり,代数的に確定してしまうので,重相関係数 R = 1 , 決定係数 R2=1という極端な例となる.単にデータが不足しているだけで決定係数がよくなるのは問題有り. このようにデータの個数(標本の大きさ)n が説明変数(独立変数)の個数+1に比べて近いとき,決定係数が実態以上によくなり過ぎるので,特にn とp+1 の差が小さいときも考えると,自由度調整済決定係数を用いる方がよいとされている.これはExcelツールの出力では補正R2と表示されている.以下,この自由度調整済決定係数について説明する. 表3のデータ(n=6 , p=2)を分析ツールの回帰分析して出力される表には,右の表4のような分散分析表がある. (自由度) 合計:n - 1=5,回帰: p=2 , 残差:n - 1 - p=3 (変動) 回帰:回帰による変動,残差による変動,総変動を表わす. (分散) 各々の変動を「自由度で割ったもの」 (不偏分散で n - 1 で割るのと同様の考え方) 上の(A)の式において,分散の代わりに分母を自由度に入れ代えたもの 1 - ・・・(A') は,自由度調整済決定係数 Rf2と呼ばれ,結局この値で回帰分析の精度,あるいは,回帰式の当てはまり具合を判断すればよいことになる. Excelの分析ツールではこの値は「補正 R2」と表示される. |
表3
|
■[個別の頁からの質問に対する回答][決定係数とはについて/17.2.20]
回帰分析をGA(Genetic Algorithm)のパラメータ最適化に使用することを検討しています。
Excellを使用してGAの各Generationの回帰分析を行ってみたのですが、Excellの回帰分析結果レポート
の用語説明をWEBで検索中にこのサイトに遭遇しました。
説明は丁寧で分かりやすいく素晴らしいです。
強いて難を言うのであれば、
1.Excelの表中(以下)の用語(重相関、重決定、補正)
と本文の用語(重相関係数、決定係数、自由度調整済決定係数)の対応が初めの部分にまとめて説明
してあると、私としては効率的でした。
2.決定係数、自由度超セ済決定係数の値の目標値を幾つにすれば良いのか目安がほしいです。
■[個別の頁からの質問に対する回答][決定係数とはについて/17.2.16]
=>[作者]:連絡ありがとう.目安は「決定係数 R2とは」の最後の方に灰色で書いています. まだざっと見ただけですが、とりあえず知りたい部分に関しては、要点を得てわかりやすいと思った。
■[個別の頁からの質問に対する回答][決定係数 R2とはについて/17.1.20]
=>[作者]:連絡ありがとう. ※についてですが独立な時に総和の関係が成立しないのは引数が独立な場合だけではないですか?
一つのデータ点y_iに関して残差偏差σ^i_eと回帰偏差σ^i_Rの和が総偏差になっていなさいという関係がn個あって全部足しなさい:Σ_i (y_i-\bar{y}) = Σ_i(σ^i_e+σ^i_R)が元の等式ですよね?
σ^i_eとσ^i_Rは元々i番目のデータ点に対して全偏差を回帰直線の値で分割して作った値なので独立ではないですよね?両辺二乗したときの引数がiとjのコンビネーションの場合には消えますが。
もしくはこの系のパラメータの拘束条件から自動的に消えるのでしょうか?
■[個別の頁からの質問に対する回答][決定係数とはについて/16.12.4]
=>[作者]:連絡ありがとう.特に難しい話しはしていないつもりです. 独立←→無相関←→垂直 のとき n次元ベクトルが垂直となることを使って と書いてあるのです. すごいですね。もっと統計を勉強したらまた来ます
■[個別の頁からの質問に対する回答][決定係数とはについて/16.11.9]
=>[作者]:連絡ありがとう. 全くわからない
=>[作者]:連絡ありがとう.初めに書いてありますように,回帰分析,重回帰分析の内容を先に読んでください. |