繰り返しのある対応のない二元配置の分散分析例題・問題

■繰り返しのある対応のない二元配置の分散分析…例題・問題（Excel，Rコマンダーによる）
【用語】
○　要因，水準，条件

　例えば，かつおで出汁を取るときに，熱湯で10分間及び15分間煮た場合，80度，90度，100度の熱湯を使った場合の２×３通りで取った出汁の良さを審査員に評価してもらうものとする．
　何分間煮るかという第１の要因については，10分間(A1)及び15分間(A2)の２つの条件があり，水準は２つあるという．
　何度で煮るかという第２の要因については，80度(B1)，90度(B2)，100度(B3)という３つの条件があり，水準は３つあるという．
　この場合，煮る時間（第１の要因とその水準），煮る温度（第２の要因とその水準）を独立変数［説明変数］として審査員の評価という得点を従属変数［目的変数］と考えることになる．

※各要因の水準は，上の例のような数値的なものばかりでなく，「２種類の肥料，３種類の苗の組合せについて収穫量を調べる場合」「英数国の教科と指導方法の組合せについて試験の得点を調べる場合」「パンフレットの内容と配布方法の組合せについて商品の売れ行きを調べる場合」のように名義的な分類であってもよい．

○　二元配置，多元配置

　右図１では２要因（二元配置）の例を示しているが，３つ以上の要因の組合せを考えることもできる．例えば要因１について２水準，要因２について２水準，要因３について３水準を考えるとき，２×２×３=12個の条件について調べることになる．このような分散分析は多元配置と呼ばれる．
　理屈の上では何要因（何元）でもできるが，実際上は４要因以上になると交互作用の分析などが複雑になり過ぎるため多元配置といっても三元（３要因）以下にすべきであるとされている．

○　繰り返しのあると繰り返しのないの違い

　第１要因２水準，第２要因３水準の２×３通りの条件について出汁の良さを審査員が100点満点で評価して，右図１のような表にまとめるものとする．
　第１要因と第２要因を組み合わせた１つの条件に対してN=４人ずつ審査員を割り当てるとき，審査員は２×３×４人必要となる．
　一般に各条件にN人の被験者を割り当てるときには被験者総数は条件の個数×Nとなるが，このNが繰り返しの数となる．ある条件に対して欠損データがある場合など各条件に割り当てる被験者Nが等しくない場合（アンバランスデザイン）でも繰り返しのある分散分析を考えることができる．その場合は，各条件に割り当てられる被験者数N（繰り返しの数）を調和平均を用いて再計算したものを使う．
※Excelの分析ツールでは，被験者数（繰り返しの数）が等しくない分散分析（欠損データがある場合など）はできない．Ｒコマンダーを使えばこの場合でもできる．

○　対応のあると対応のないの違い

　要因が２つあるときに（二元配置）１つの要因を同一被験者が行うような場合を対応のある分散分析といい，被験者による違いを考慮する必要がないので誤差が少なくなり有意差が検出されやすくなる．
　対応の有無は，２要因とも対応が有る場合（被験者内計画），１つは対応があり他の１つは対応がない場合（混合計画），２つとも対応がない場合（被験者間計画）の３種類考えられる．条件がｍ×ｎ通りあるとき，対応のない分散分析で各条件にＮ人の被験者を割り当てる場合はｍ×ｎ×Ｎ人の異なる被験者が必要となる．
※Excelの分析ツール，Ｒコマンダーを使った繰り返しある二元配置分散分析は「対応のない場合」に対応しており，「対応のある場合」を調べるためには各自で計算する必要がある．

○　Excelの分析ツールを使って対応のない繰り返しのある二元配置分散分析を行うときのデータの形

　Excelの分析ツールを使って対応のない繰り返しのある二元配置分散分析を行うためには，図１のような形の表にする．
※要因１の２つの水準名（A1，A2）はそのうちの先頭のセルだけが重要で他はなくてもよい（もし，A1という名前がデータの上から２つ目以下のセルだけに書かれていれば，結果の出力においてその名前は表示されない．）．A1，A2の名前各４個をセルの書式設定によりセルを結合させて１つに表示しても構わないが，そのようにする必要はない．（他のソフトに移し替えることも想定するとセルの結合のようなExcel上だけで行われる表示上の細工はしない方がよい．）
※図１のデータがワークシート左上端にあるとき（セル番地のA1からD9の範囲．ラベルとの関係が紛らわしいが，要因１の２つの水準ラベルはA列に要因２の３つの水準ラベルは１行目にあるものとする），分析ツールを使って，繰り返しのある二元配置のダイアログボックスに入力するには，図２のダイアログボックスにおいて「入力範囲」にA1:D9を指定する．（要因１，要因２の水準名も入力範囲に含めるようにする．）
　「１標本あたりの行数」に4と書きこむ･･･標本という言葉が１組の標本（集合）を表しているので１標本には4個のデータがある．（繰り返しの数がこの行数になっている．書物によっては，例数が4とも書かれるもの．）繰り返しは列方向に（行番号が増える方向に）セルが並んでいなければならない．
※分析ツールで繰り返しのある二元配置分散分析を行うときは，繰り返しの数が等しくなければならない．欠損データのあるとき（上で述べたアンバランスデザイン）は分析ツールでは調べられない．

○　Ｒコマンダーを使って対応のない繰り返しのある二元配置分散分析を行うときのデータの形

　Excel上のデータをクリップボード（Execl上でコピーして一時記憶に入れたもの）経由でＲコマンダーにインポートするためには，Excel上のデータを図３の形に書き換えておく必要がある．Ｒコマンダーにインポートして使うときは，必ずしも右図３のように要因１順かつ要因２順に並んでいなくてもよく，順序はでたらめでも各行を１件のデータと見たときに必要な個数があればよい．また，Ｒコマンダーではアンバランスデザインでも扱える．
　次に，このデータをクリップボードからインポートするには，図４のように「ファイル内に変数名あり」のチェックをはずしておかなければならない．（図３の形のデータの中には変数名はなく，Ｒコマンダーにインポートされるときに付けられる．）
　最後に，Ｒコマンダーのメニューから［統計量］→［平均］→［多元配置分散分析］と進むときに，「因子（１つ以上選択）」のところをＲコマンダーが付けた変数名V1，V2の２つとも選び，「目的変数（１つ選択）」を選択する．

Ｒコマンダーにインポートするときに，変数の水準ラベル（上記のA1～B3）に日本語漢字・ひらがななどの２バイト文字が含まれると，分析結果の出力のときにエラーとなることがあるようです．詳しくは調べていませんが，ラベルを１バイト文字の英数字にする方が安全なようです．

図１　【Excelの分析ツールを使って，繰り返しのある対応のない二元配置の分散分析を行うためのデータの形】

図２

図３　【Ｒコマンダーを使って，繰り返しのある対応のない二元配置の分散分析を行うためのデータの形】

図４

図５

分析ツール，Ｒコマンダーから出力される分散分析表の見方

　右図６のようなデータについてExcelの分析ツールを使って二元配置分散分析を行ったとき，及び右図７のようなデータについてＲコマンダーを使って二元配置分散分析を行ったとき，図９及び図10のような分散分析表が出力される．（紙面の都合上小数第２位まで示す）

これらを確かめるには，画面上でこの表の上をドラッグ（反転表示）→（右クリック）コピー→Excel上に（単純に）貼り付けるとよい．（図７のデータはExcel上に貼り付けた後にクリップボード経由でＲコマンダーにインポートする）

　これらの出力結果と各データの関係を順を追って解説する．

《全体の流れ》
　対応のない二元配置分散分析では，右図８のように全体の変動を要因１の効果，要因２の効果，交互作用の効果，誤差に分けて考える．

（全変動）=（要因1による変動）
+（要因２による変動）
+（交互作用による変動）
+（個別のデータによる誤差）

　次に，３つの分散比を求める．

（分散比１）= 要因１の分散/誤差の分散
（分散比２）= 要因２の分散/誤差の分散
（分散比３）= 交互作用の分散/誤差の分散

　次にこれらの分散比がＦ検定の境界値よりも大きければ（確率ｐが0.05よりも小さければ）その要因には有意差があると見なす．
　そこで，分散分析表はこれらの分散比を求めるために表を順に上から下へ，左から右に組み立てて行き，最終的に分散比と境界値（または確率）を求めるようになっている．
　Ｒコマンダーからの出力もこれと対応している．ただし，Ｒコマンダーの方は境界値は示さずｐ値とそれが有意水準5％に該当するときは*印，1％に該当するときは**印を付けて表示される．

図６
	B1	B2	B3
A1	59	64	66
	60	62	60
	56	63	61
	56	71	64
A2	59	52	60
	61	55	67
	57	58	69
	64	55	63

図７
A1	B1	59
A1	B1	60
A1	B1	56
A1	B1	56
A1	B2	64
A1	B2	62
A1	B2	63
A1	B2	71
A1	B3	66
A1	B3	60
A1	B3	61
A1	B3	64
A2	B1	59
A2	B1	61
A2	B1	57
A2	B1	64
A2	B2	52
A2	B2	55
A2	B2	58
A2	B2	55
A2	B3	60
A2	B3	67
A2	B3	69
A2	B3	63

《各々の数値》
　［変動の欄］
・全変動［平方和ともいうSum of Square, SSと略される］
=（各々の値-全体の平均）2　の和

図６の表がワークシート上のA1～D9の範囲にあるとき（数値データの部分がB2:D9の範囲にあるとき）･･･以下においても同様
全体の平均 m=60.92を使って，
(59−m)2+(60−m)2+(56−m)2+···+(63−m)2
を計算したものが 499.83になる．

・標本と書かれているものは第１要因に関するもの，列と書かれているものは第２要因に関するものになっているので，第１要因による変動は標本と変動が交わるセルの値になる．
Rコマンダーでは変数１ということでV1と書かれるもののSum Sq．

第１要因に関する平均を
AVERAGE(B2:D5)=61.83=mA1
AVERAGE(B6:D9)=60.00=mA2
と書くと
(mA1−m)2×12+(mA2−m)2×12
を計算したものが 20.17になる．

・第２要因による変動は列と変動が交わるセルの値になる．
Rコマンダーでは変数2ということでV2と書かれるもののSum Sq．

第２要因に関する平均を
AVERAGE(B2:B9)=59.00=mB1
AVERAGE(C2:C9)=60.00=mB2
AVERAGE(D2:D9)=63.75=mB3
と書くと
(mB1−m)2×8+(mB2−m)2×8+(mB3−m)2×8
を計算したものが 100.33になる．

・第１要因と第２要因の２×３組の各々について（各々N=4件のデータがある）その平均と全体平均との変動が交互作用の変動になる．
RコマンダーではV1:V2と書かれる．

・全変動のうちで第１要因，第２要因，交互作用の変動によって説明できない部分が誤差の変動（繰り返し誤差，個別のデータのバラつき）になる．
RコマンダーではResiduals（残余）と書かれる．

変動の欄で，
（合計）=（標本）+（列）+（交互作用）+（繰り返し誤差）
（合計）−（標本）−（列）−（交互作用）=（繰り返し誤差）
499.83−20.17−100.33−200.33=179.00

　［自由度の欄］

検定においては，各々の変動の値となるように各変数を動かしたときに，その変動の値が実現される確率が大きいか小さいかによって判断するので，自由に決められる変数の個数（自由度）は平均の数だけ少なくなる．

・第１要因の変数はA1，A2の２個あるが，それらの平均が全体の平均になるように決めるとき，１つの変数の値を決めるともう一方の変数の値は決まるから，自由度は変数の個数2−1となる．

第１要因（標本）の自由度　dfA=2−1=1

・第２要因の変数はB1，B2，B3の３個あるが，それらの平均が全体の平均になるように決めるとき，１つの変数の値を決めるともう一方の変数の値は決まるから，自由度は変数の個数3−1となる．

第２要因（列）の自由度　dfB=3−1=2

・交互作用の変数はA1B1，A1B2，...，A2B3の６個あるが，行の平均及び列の平均が観測された値となるように決めるとき，自由度は(2−1)×(3−1)となる．

交互作用の自由度
dfA×dfB=(2−1)×(3−1)=2

一般に，右図のようなｍ×ｎ個のセルの値を決めるときに，行の平均，列の平均が指定された値となるように決めるには，(ｍ−1)×(ｎ−1)個の変数は自由に決められるが残りは自動的に決まる．したがって，自由度は(ｍ−1)×(ｎ−1)となる．

・繰り返し誤差の変数は6×4個あるが，交互作用の平均が指定された値となるように決めると，各相互作用の中で１個は自動的に決まってしまうので，繰り返し誤差の変数は6×3個が自由に決められる．

繰り返し誤差の自由度 6×3=18

・合計の自由度はこれら全部の和となるが，一般に第１要因がｍ個の変数，第２要因がｎ個の変数，繰り返しの個数Nのとき，

第１要因の自由度m−1
第２要因の自由度n−1
交互作用の自由度(m−1)(n−1)
繰り返し誤差の自由度 mn(N−1)

合計の自由度m−1
+n−1
+nm−m−n+1
+nmN−mn
=nmN−1

図８

図９

分散分析表
変動要因	変動	自由度	分散	観測された分散比	P-値	F 境界値
標本	20.17	1	20.17	2.03	0.17	4.41
列	100.33	2	50.17	5.04	0.02	3.55
交互作用	200.33	2	100.17	10.07	0.001	3.55
繰り返し誤差	179.00	18	9.94

合計	499.83	23

図10

      Anova Table (Type II tests)



Response: V3

           Sum Sq Df F value  Pr(>F)   

V1         20.17  1  2.03 0.17   

V2        100.33  2  5.04 0.02 * 

V1:V2     200.33  2 10.07 0.001 **

Residuals 179.00 18

　［分散の欄］

変動を自由度で割ったものが分散（不偏分散：母集団の分散の推定値）となる．

　［観測された分散比の欄］

第１要因，第２要因，交互作用の分散を各々繰り返し誤差の分散で割ったもの．

　［Ｆ境界値］

各々の分散比が確率5％となる境界値
例えば，第１要因の分散/繰り返し誤差の分散は，分子の自由度が1，分母の自由度が18だから，ちょうど5％の確率となる分散比は
FINV(0.05,1,18)=4.41 観測された分散比がこの値よりも大きければ，第１要因による効果が有意であると見なす．

第１要因2.03<FINV(0.05,1,18)=4.41 有意差なし
第２要因5.04>FINV(0.05,2,18)=3.55 有意差あり
交互作用10.07>FINV(0.05,2,18)=3.55 有意差あり

　［Ｐ-値］

観測された分散比がその分子と分母に対して発生する確率を表す．
「観測された分散比」が「Ｆ境界値」よりも大きいかどうかで判断してもよいが，Ｐ値が0.05よりも小さいかどうか判断してもよい．
この値は FDIST(観測された分散比,　分子の自由度, 分母の自由度) を計算したものを表す．
第１要因FDIST(2.03, 1, 18)=0.17>0.05 有意差なし
第２要因FDIST(5.04, 2, 18)=0.02<0.05 有意差あり
交互作用FDIST(10.07, 2, 18)=0.001>0.05 有意差あり

分散分析の後の処理の流れ

分散分析表において有意差のあるものが１つもなければそれで終わってしまうが，有意差のあるものがあるときは，さらに吟味しなければならない．

≪後処理のポイント≫

・交互作用が有意のときは，主効果だけを吟味しても意味がないので水準別の各要因の効果（=単純主効果）を吟味する．
・主効果または単純主効果において有意差のあった要因が３水準以上ある場合には，多重比較を行う．

　交互作用が有意でなければ，各要因が有意かどうか調べればよいが，交互作用が有意の場合は水準別の各要因の効果（=単純主効果）を吟味する．
　そのために，まず各水準別の平均を計算し，右図11のような折れ線グラフを描くことから始める．右図12のように，交互作用がないときは，折れ線グラフが平行線になるが，１つの要因が他の要因に及ぼす影響が増減の「大きさ」や「向き」に現れるときは交互作用がある．図11は，B2のところで影響の向きが変化する例となっている．

　ここで示した例では，第１要因は２水準であるが，第２要因は３水準となっているので，交互作用またが第２要因について有意差があればさらに多重比較を行うことになる．

【用語】
・第１要因や第２要因による効果を主効果という．これに対して２つの要因が組み合わされて生じる効果を交互作用という．
・交互作用が有意のときは主効果だけで調べても意味がないので，水準別に分けた各要因の効果を調べる．水準別に分けた各要因の効果を単純主効果という．

図11

図12

問題　右図13は数学と英語の２つの教科を３人の担当者T1,T2,T3が５人ずつ計３０人の生徒に対して個人指導したときの各生徒の得点一覧だとします．
　(1)　このデータについてExcelの分析ツールを使って分散分析を行い，教科，担当者，交互作用について調べて下の表を埋めてください．
　(2)　英語で担当者T3のデータ（赤字で示した72点のデータ）がないとき（欠損データになっているとき）は，そこだけ繰り返し回数が異なるためExcelの分析ツールでは分析できませんので，データの形を変えてからＲコマンダーにインポートして分析してください．その結果について下の表を埋めてください．

(1)(2)とも答案は小数第3位を切り上げて小数第2位まで答えてください．（例えば0.051が四捨五入で0.05となると有意差の有無が変わってしまうので，ここでは切り上げとします．）

(2)
Anova Table (Type II tests)

Response: V3

          Sum Sq Df F value  Pr(>F)  

V1         94.00  1    .

V2        240.97  2    *

V1:V2     285.84  2    *

Residuals 677.95 23

---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

採点するやり直す HELP

図13

	T1	T2	T3
math	69	77	79
math	73	67	81
math	70	63	79
math	69	71	66
math	67	65	66
english	77	90	68
english	74	82	77
english	80	74	70
english	72	77	64
english	81	85	72

(1)

次の値の小数第3位を切り上げます．
観測された分散比P-値F 境界値
7.696 0.011 4.260
0.764 0.477 3.403
6.570 0.005 3.403

(2)

次の値の小数第3位を切り上げます．
F valuePr(>F)
3.1890 0.08733
4.0876 0.03027
4.8487 0.01750

確率統計のメニューに戻る

高校数学のメニューに戻る