■Excel:重回帰分析(2) ■質的データから量的データを予測する場合■ (参照):統計的データの種類 「男女,最終学歴,世代から貯蓄残高を予測する場合」「プロ野球で対戦チーム,球場,曜日から観客数を予測する場合」 のように,説明変数(独立変数)がカテゴリーデータ(質的データ,定性的データ)で,目的変数(被説明変数,従属変数)が量的データの場合の回帰分析の方法・・・ここではダミー変数を用いる方法・・・を説明する. (質的データ→量的データの分析では,「数量化 I 類」が有名であるが,用
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
○ ダミー変数への変換 数百人のアンケート調査から右の表1のような結果が得られたとき,これに基づいて男女,最終学歴,年代から貯蓄残高の平均値を予測する場合(ただし右の例は架空データ) ・男女の別のように2つの属性を区別するには, 一方を0に他方を1にすればよい.表2のように「女」という列を作り、元の男女に応じて0,1を記入する.このとき,男は不要.「女」が0のものは男(もちろん逆でもよい.) ・「高校」「大学」「専門学校」のように3つの属性を区別するには,2つの列を作り該当するものには1,該当しないものには0を記入する.このとき残り1つ(右の例では専門学校)の列は不要.準備した2つの列の値がすべて0のものは残りの属性(専門学校)と分かる. ・一般にn個のカテゴリーデータを区別するにはn−1個の列を準備し,該当するものには1,該当しないものには0を記入すればよい.(n−1個の列が全部0のもので最後の1つの属性を表わす.) ※ 右のようにダミー変数に変換した場合,年代は「もれなく」「重複なく」数え上げただけで,例えば30代が20代と40代の間にあるという意味は失われている.また,年代がすべて0のものは,この分析では50代となり,10代や60代〜は登場しない. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
○ 予測値の計算方法 ツール→分析ツール→回帰分析で、他の多くの表とともに次の結果が出力される.
貯蓄残高 = 7950000 -1150000×(女)+1200000×(高校) +50000×(大学) -8100000×(20代)+・・・ に 1 0 1 1 0 0 を代入して-\1,250,000 となる.(借金) または, =TREND() に各々範囲を指定する. |
注意 1 ダミー変数への変換において,上の説明において「不要」としたn個目の列(女子以外にさらに男子の列も作ったとき)を作ると分析ツールで分析するときにエラーメッセージが出る. 2 ダミー変数への変換は,1つの列に0以外の値があるかないかで区別するので,高校=1,大学=2,専門学校=3のような値の割り振りではできない. 3 ダミー変数への変換は,2進数表記に直しているのではないので,0,1の組合せ3列で8種類のカテゴリーを区別するようなことはできない. 4 Excelの回帰分析では説明変数は最大16個まで(Excel2002)という制限がある. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
○ 量的変数はそのまま使い,質的変数はダミー変数に直すことにより,これらが混在している場合にも重回帰分析による予測が可能となる. 例 右の表は,ある駅周辺で検索した木造アパートの家賃の一部である. 通常「新築」と表示されるものは0年に直した. 部屋の向きは,「東」「南」「西」の3種類で「北」は実際にはなかった.この場合,ダミー変数に変換するための列は「東」「南」の2つとなる. 新築アパートの家賃を決める目安をこの表から計算することができる. ※参考 家賃は,「徒歩(分)」「築」と負の相関があるのが自然 部屋は,「西」向きが安いと予想したが実際に分析してみるとそうとはならなかった.(道路との関係や高層マンションとの位置関係などその土地ごとの好みはあるかも.) |
|
(1) 右の表は,A,B,Cの3支店での1日当りの食品売上高とする.(架空データ) C支店でも「おでん」を取り扱うとすれば,C支店の1日当り「おでん」売り上げ高は幾らになると予測されるか. (答) 表2のようにダミー変数に変換して予測すればよい. 予測値は?のセルに =TREND(既知のy,既知のx,新しいx)とすれば得られる. \24,390 ※ 予測値は出るが,その結果が妥当かどうかはまた別の問題・・・そもそも,C支店の「おでん」の売り上げに「おにぎり」や「パン類」の売り上げ高は影響しているのか?むしろ,各支店の総売上高や駅からの距離に関係しないか?説明変数の選び方については別ページで説明する. |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(2) 右の表はある駅周辺の木造アパートの家賃である. 「新築」と表示されているものは0年で表わした. i) このデータを元に家賃を「徒歩(分)」「間取り(u)」「築(年)」「向き」で表わす回帰式を作れ. ii) 他の条件が同じのとき,部屋はどちら向きが安いか iii) 他の条件が同じとき,家賃は1年当り何円下がるか. (答) 部屋の向きについては右の表のようにダミー変数に変換する. i) 家賃= 1.895 -0.220×(徒歩)+ 0.199×(間取り) -0.008×(築)-0.206×(南)+ 0.489×(東) ii) 南向きが安い iii) 80円 |
===> |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(3) 株価については,シーズンストック(季節銘柄)と呼ばれるものがあって,特定季節の前に株価が上がり初め,最盛期を過ぎると株価が下がると言われている.例えば,夏場のビールやエアコンなどがこれに当たるとされている. そこで,アサヒビールとダイキン工業の時系列データを分析して,2007年5月と7月の株価を予測してみよう. (作者の印象) ※ 回帰分析では,元データの範囲(今の場合は年月)から外れた時期を予測するのは元々無理があるが,それは承知の上で・・・ Excelの回帰分析で使える説明変数は16個まで(Excel2002):12か月でダミー変数を11個使うので,年は5個=6年分に絞る. 結果は, アサヒビール 5月>7月 ダイキン工業 5月<7月 となるが,季節変動といえるほどの差とは思えない. |
|
■[個別の頁からの質問に対する回答][重回帰分析(2)について/17.7.6]
とても詳しく、わかりやすくて助かります!
重相関分析で問題になる多重共線性のページも読んでみたいです。
■[個別の頁からの質問に対する回答][Excel:重回帰分析(2)について/17.2.14]
=>[作者]:連絡ありがとう. Rコマンダーがうまく動かず、困っております。
■[個別の頁からの質問に対する回答][重回帰分析(2)について/16.11.8]
=>[作者]:連絡ありがとう.質問内容が漠然としていて答えようがありません. ○ 予測値の計算方法
ツール→分析ツール→回帰分析 はわかりますが ここまでしていただいたのなら Y値 X値をどの範囲で指定するのか まで載せていただけないのでしょうか・・・。
=>[作者]:連絡ありがとう.分析ツールを用いた出力結果は,元の表になく,各自で設定して出力された結果を使います.○予測値の計算方法と書いているような表が出力されたら,その右側に1列作って,縦に101100などと入力して,=SUMPRODUCT(係数の列, 右の列)とすると1回で計算できます. |