重回帰分析

■Excel：重回帰分析(2)

■質的データから量的データを予測する場合■　　　（参照）：統計的データの種類

　「男女，最終学歴，世代から貯蓄残高を予測する場合」「プロ野球で対戦チーム，球場，曜日から観客数を予測する場合」　のように，説明変数（独立変数）がカテゴリーデータ（質的データ，定性的データ）で，目的変数（被説明変数，従属変数）が量的データの場合の回帰分析の方法･･･ここではダミー変数を用いる方法･･･を説明する．

（質的データ→量的データの分析では，「数量化Ｉ類」が有名であるが，用
いる用語など幾つかの相違点を除けば結果はほとんど同じなので，このペ
ージでは，数量化Ｉ類をダミー変数による重回帰分析に含めて考える．）

　【要約】　ダミー変数によって数値に直せば，次のいずれの場合も重回帰分析でまとめることができる．

重回帰分析	質的データ，質的データ，･･･→量的データ
	量的データ，質的データ，･･･→量的データ
	量的データ，量的データ，･･･→量的データ

○　ダミー変数への変換

　数百人のアンケート調査から右の表１のような結果が得られたとき，これに基づいて男女，最終学歴，年代から貯蓄残高の平均値を予測する場合（ただし右の例は架空データ）

・男女の別のように２つの属性を区別するには，
　一方を0に他方を1にすればよい．表２のように「女」という列を作り、元の男女に応じて0,1を記入する．このとき，男は不要．「女」が0のものは男（もちろん逆でもよい．）

・「高校」「大学」「専門学校」のように３つの属性を区別するには，２つの列を作り該当するものには1，該当しないものには0を記入する．このとき残り１つ（右の例では専門学校）の列は不要．準備した２つの列の値がすべて0のものは残りの属性（専門学校）と分かる．

・一般にｎ個のカテゴリーデータを区別するにはｎ－１個の列を準備し，該当するものには1，該当しないものには0を記入すればよい．（ｎ－１個の列が全部0のもので最後の１つの属性を表わす．）

※　右のようにダミー変数に変換した場合，年代は「もれなく」「重複なく」数え上げただけで，例えば30代が20代と40代の間にあるという意味は失われている．また，年代がすべて0のものは，この分析では50代となり，10代や60代～は登場しない．

表１	男女	最終学歴	年代	貯蓄残高	表2	貯蓄残高	女	高校	大学	20代	30代	40代
	男	高校	20	\200,000		\200,000	0	1	0	1	0	0
	女	大学	30	\800,000		\800,000	1	0	1	0	1	0
	男	専門学校	20	\700,000		\700,000	0	0	0	1	0	0
	女	高校	40	\5,000,000		\5,000,000	1	1	0	0	0	1
	女	大学	30	\2,000,000		\2,000,000	1	0	1	0	1	0
	男	大学	50	\8,000,000		\8,000,000	0	0	1	0	0	0
	男	専門学校	30	\3,000,000		\3,000,000	0	0	0	0	1	0
	男	高校	40	\7,000,000		\7,000,000	0	1	0	0	0	1
	男	専門学校	30	\300,000		\300,000	0	0	0	0	1	0
	女	大学	40	\3,000,000		\3,000,000	1	0	1	0	0	1

○　予測値の計算方法
ツール→分析ツール→回帰分析で、他の多くの表とともに次の結果が出力される．

	係数
切片	7950000
女	-1150000
高校	1200000
大学	50000
20代	-8100000
30代	-5875000
40代	-3000000

例えば，女，大学，20代の場合の貯蓄残高の予測値は
貯蓄残高 = 7950000 -1150000×(女)+1200000×(高校) +50000×(大学) -8100000×(20代)+･･･
に 1 0 1 1 0 0　を代入して-\1,250,000 となる．（借金）
または，
=TREND()　に各々範囲を指定する．

注意
1
　ダミー変数への変換において，上の説明において「不要」としたｎ個目の列（女子以外にさらに男子の列も作ったとき）を作ると分析ツールで分析するときにエラーメッセージが出る．
2
　ダミー変数への変換は，１つの列に0以外の値があるかないかで区別するので，高校=1，大学=2，専門学校=3のような値の割り振りではできない．
3
　ダミー変数への変換は，2進数表記に直しているのではないので，0，1の組合せ3列で8種類のカテゴリーを区別するようなことはできない．
4
　Excelの回帰分析では説明変数は最大16個まで(Excel2002)という制限がある．

○　量的変数はそのまま使い，質的変数はダミー変数に直すことにより，これらが混在している場合にも重回帰分析による予測が可能となる．
例
　右の表は，ある駅周辺で検索した木造アパートの家賃の一部である．
　通常「新築」と表示されるものは0年に直した．
　部屋の向きは，「東」「南」「西」の３種類で「北」は実際にはなかった．この場合，ダミー変数に変換するための列は「東」「南」の２つとなる．
　新築アパートの家賃を決める目安をこの表から計算することができる．

※参考
家賃は，「徒歩(分)」「築」と負の相関があるのが自然
部屋は，「西」向きが安いと予想したが実際に分析してみるとそうとはならなかった．（道路との関係や高層マンションとの位置関係などその土地ごとの好みはあるかも．）

家賃（万円）	徒歩（分）	間取り(㎡)	築（年）	向き
3.4	10	21.4	27	南
3.4	10	21.4	27	南
3.9	7	18	16	東
3.9	7	18	16	東
4.2	8	20	25	東
4.2	7	19.5	25	西
4.2	5	18.4	16	南
4.2	5	16	16	南
･･･	･･･	･･･	･･･	･･･

■例と答■

(1)
　右の表は，Ａ，Ｂ，Ｃの３支店での１日当りの食品売上高とする．（架空データ）
　Ｃ支店でも「おでん」を取り扱うとすれば，Ｃ支店の１日当り「おでん」売り上げ高は幾らになると予測されるか．

（答）
表２のようにダミー変数に変換して予測すればよい．

予測値は？のセルに
=TREND(既知のｙ,既知のｘ,新しいｘ)とすれば得られる．

\24,390

※
　予測値は出るが，その結果が妥当かどうかはまた別の問題･･･そもそも，Ｃ支店の「おでん」の売り上げに「おにぎり」や「パン類」の売り上げ高は影響しているのか？むしろ，各支店の総売上高や駅からの距離に関係しないか？説明変数の選び方については別ページで説明する．

表１	売り上げ	支店	食品	表２	売り上げ	A支店	Ｂ支店	おにぎり	弁当	パン類	飲料
	\56,540	Ａ	おにぎり		\56,540	1	0	1	0	0	0
	\48,900	Ａ	弁当		\48,900	1	0	0	1	0	0
	\33,060	Ａ	パン類		\33,060	1	0	0	0	1	0
	\53,660	Ａ	飲料		\53,660	1	0	0	0	0	1
	\39,610	Ａ	おでん		\39,610	1	0	0	0	0	0
	\47,440	Ｂ	おにぎり		\47,440	0	1	1	0	0	0
	\20,660	Ｂ	弁当		\20,660	0	1	0	1	0	0
	\40,430	Ｂ	パン類		\40,430	0	1	0	0	1	0
	\45,210	Ｂ	飲料		\45,210	0	1	0	0	0	1
	\59,750	Ｂ	おでん		\59,750	0	1	0	0	0	0
	\27,970	Ｃ	おにぎり		\27,970	0	0	1	0	0	0
	\21,420	Ｃ	弁当		\21,420	0	0	0	1	0	0
	\16,660	Ｃ	パン類		\16,660	0	0	0	0	1	0
	\5,740	Ｃ	飲料		\5,740	0	0	0	0	0	1

					?	0	0	0	0	0	0

(2)
　右の表はある駅周辺の木造アパートの家賃である．
　「新築」と表示されているものは0年で表わした．
i)　このデータを元に家賃を「徒歩(分)」「間取り(㎡)」「築(年)」「向き」で表わす回帰式を作れ．
ii)　他の条件が同じのとき，部屋はどちら向きが安いか
iii)　他の条件が同じとき，家賃は１年当り何円下がるか．

（答）
部屋の向きについては右の表のようにダミー変数に変換する．
i)　家賃= 1.895 -0.220×（徒歩）+ 0.199×（間取り） -0.008×（築）-0.206×（南）+ 0.489×（東）
ii)　南向きが安い
iii)　80円

家賃（万円）	徒歩（分）	間取り(㎡)	築（年）	向き
3.4	10	21.4	27	南
3.4	10	21.4	27	南
3.9	7	18	16	東
3.9	7	18	16	東
4.2	8	20	25	東
4.2	7	19.5	25	西
4.2	5	18.4	16	南
4.2	5	16	16	南
5.6	9	23.76	0	東
5.6	9	23.76	0	東
5.6	5	23.76	100	東
5.8	9	25.74	0	東
6.3	9	29.7	0	東
6.3	5	29.7	100	東
6.5	6	30.28	9	西
6.5	6	30.28	9	西
7.5	5	32	10	東
4.2	7	20	25	東
4.9	12	30	25	西
5.3	5	24.84	0	南
5.4	5	24.84	0	南
5.5	5	24.84	0	南

南	東
1	0
1	0
0	1
0	1
0	1
0	0
1	0
1	0
0	1
0	1
0	1
0	1
0	1
0	1
0	0
0	0
0	1
0	1
0	0
1	0
1	0
1	0

　　＝＝＝＞

(3)
　株価については，シーズンストック（季節銘柄）と呼ばれるものがあって，特定季節の前に株価が上がり初め，最盛期を過ぎると株価が下がると言われている．例えば，夏場のビールやエアコンなどがこれに当たるとされている．
　そこで，アサヒビールとダイキン工業の時系列データを分析して，2007年5月と7月の株価を予測してみよう．

（作者の印象）
※　回帰分析では，元データの範囲（今の場合は年月）から外れた時期を予測するのは元々無理があるが，それは承知の上で･･･

Excelの回帰分析で使える説明変数は16個まで（Excel2002）：12か月でダミー変数を11個使うので，年は5個=6年分に絞る．
結果は，
アサヒビール　5月＞7月
ダイキン工業　5月＜7月
となるが，季節変動といえるほどの差とは思えない．

アサヒビール		ダイキン工業
日付	終値	日付	終値
2001年1月	1,098	2002年1月	2,030
2001年2月	1,140	2002年2月	2,250
2001年3月	1,195	2002年3月	2,270
2001年4月	1,384	2002年4月	2,330
2001年5月	1,285	2002年5月	2,340
2001年6月	1,399	2002年6月	2,195
・・・	・・・	・・・	・・・

例えば次のようにダミー変数に変換する．

終値	2002	2003	2005	2006	2007	1月	2月	3月	4月	･･･
1,080	1	0	0	0	0	1	0	0	0	･･･
1,035	1	0	0	0	0	0	1	0	0	･･･
1,065	1	0	0	0	0	0	0	1	0	･･･
1,183	1	0	0	0	0	0	0	0	1	･･･
1,183	1	0	0	0	0	0	0	0	0	･･･

確率統計のメニューに戻る

高校数学のメニューに戻る

■［個別の頁からの質問に対する回答］[重回帰分析(2)について／17.7.6］

とても詳しく、わかりやすくて助かります！重相関分析で問題になる多重共線性のページも読んでみたいです。
＝＞［作者］：連絡ありがとう．

■［個別の頁からの質問に対する回答］[Excel：重回帰分析(2)について／17.2.14］

Rコマンダーがうまく動かず、困っております。
＝＞［作者］：連絡ありがとう．質問内容が漠然としていて答えようがありません．

■［個別の頁からの質問に対する回答］[重回帰分析(2)について／16.11.8］

○　予測値の計算方法ツール→分析ツール→回帰分析はわかりますが　ここまでしていただいたのなら　Y値　X値をどの範囲で指定するのか　まで載せていただけないのでしょうか・・・。　
＝＞［作者］：連絡ありがとう．分析ツールを用いた出力結果は，元の表になく，各自で設定して出力された結果を使います．○予測値の計算方法と書いているような表が出力されたら，その右側に１列作って，縦に101100などと入力して，=SUMPRODUCT(係数の列, 右の列)とすると１回で計算できます．