■繰り返しのある対応のない二元配置の分散分析…例題・問題(Excel,Rコマンダーによる) 【用語】 ○ 要因,水準,条件
例えば,かつおで出汁を取るときに,熱湯で10分間及び15分間煮た場合,80度,90度,100度の熱湯を使った場合の2×3通りで取った出汁の良さを審査員に評価してもらうものとする.
何分間煮るかという第1の要因については,10分間(A1)及び15分間(A2)の2つの条件があり,水準は2つあるという. 何度で煮るかという第2の要因については,80度(B1),90度(B2),100度(B3)という3つの条件があり,水準は3つあるという. この場合,煮る時間(第1の要因とその水準),煮る温度(第2の要因とその水準)を独立変数[説明変数]として審査員の評価という得点を従属変数[目的変数]と考えることになる. ※各要因の水準は,上の例のような数値的なものばかりでなく,「2種類の肥料,3種類の苗の組合せについて収穫量を調べる場合」「英数国の教科と指導方法の組合せについて試験の得点を調べる場合」「パンフレットの内容と配布方法の組合せについて商品の売れ行きを調べる場合」のように名義的な分類であってもよい. ○ 二元配置,多元配置
右図1では2要因(二元配置)の例を示しているが,3つ以上の要因の組合せを考えることもできる.例えば要因1について2水準,要因2について2水準,要因3について3水準を考えるとき,2×2×3=12個の条件について調べることになる.このような分散分析は多元配置と呼ばれる.
理屈の上では何要因(何元)でもできるが,実際上は4要因以上になると交互作用の分析などが複雑になり過ぎるため多元配置といっても三元(3要因)以下にすべきであるとされている. ○ 繰り返しのあると繰り返しのないの違い
第1要因2水準,第2要因3水準の2×3通りの条件について出汁の良さを審査員が100点満点で評価して,右図1のような表にまとめるものとする.
第1要因と第2要因を組み合わせた1つの条件に対してN=4人ずつ審査員を割り当てるとき,審査員は2×3×4人必要となる. 一般に各条件にN人の被験者を割り当てるときには被験者総数は条件の個数×Nとなるが,このNが繰り返しの数となる. ある条件に対して欠損データがある場合など各条件に割り当てる被験者Nが等しくない場合(アンバランスデザイン)でも繰り返しのある分散分析を考えることができる.その場合は,各条件に割り当てられる被験者数N(繰り返しの数)を調和平均を用いて再計算したものを使う. ※Excelの分析ツールでは,被験者数(繰り返しの数)が等しくない分散分析(欠損データがある場合など)はできない.Rコマンダーを使えばこの場合でもできる. ○ 対応のあると対応のないの違い
要因が2つあるときに(二元配置)1つの要因を同一被験者が行うような場合を対応のある分散分析といい,被験者による違いを考慮する必要がないので誤差が少なくなり有意差が検出されやすくなる.
対応の有無は,2要因とも対応が有る場合(被験者内計画),1つは対応があり他の1つは対応がない場合(混合計画),2つとも対応がない場合(被験者間計画)の3種類考えられる.条件がm×n通りあるとき,対応のない分散分析で各条件にN人の被験者を割り当てる場合はm×n×N人の異なる被験者が必要となる. ※Excelの分析ツール,Rコマンダーを使った繰り返しある二元配置分散分析は「対応のない場合」に対応しており,「対応のある場合」を調べるためには各自で計算する必要がある. ○ Excelの分析ツールを使って対応のない繰り返しのある二元配置分散分析を行うときのデータの形
Excelの分析ツールを使って対応のない繰り返しのある二元配置分散分析を行うためには,図1のような形の表にする.
※要因1の2つの水準名(A1,A2)はそのうちの先頭のセルだけが重要で他はなくてもよい(もし,A1という名前がデータの上から2つ目以下のセルだけに書かれていれば,結果の出力においてその名前は表示されない.).A1,A2の名前各4個をセルの書式設定によりセルを結合させて1つに表示しても構わないが,そのようにする必要はない.(他のソフトに移し替えることも想定するとセルの結合のようなExcel上だけで行われる表示上の細工はしない方がよい.) ※図1のデータがワークシート左上端にあるとき(セル番地のA1からD9の範囲.ラベルとの関係が紛らわしいが,要因1の2つの水準ラベルはA列に要因2の3つの水準ラベルは1行目にあるものとする),分析ツールを使って,繰り返しのある二元配置のダイアログボックスに入力するには,図2のダイアログボックスにおいて「入力範囲」にA1:D9を指定する.(要因1,要因2の水準名も入力範囲に含めるようにする.) 「1標本あたりの行数」に4と書きこむ・・・標本という言葉が1組の標本(集合)を表しているので1標本には4個のデータがある.(繰り返しの数がこの行数になっている.書物によっては,例数が4とも書かれるもの.)繰り返しは列方向に(行番号が増える方向に)セルが並んでいなければならない. ※分析ツールで繰り返しのある二元配置分散分析を行うときは,繰り返しの数が等しくなければならない.欠損データのあるとき(上で述べたアンバランスデザイン)は分析ツールでは調べられない. ○ Rコマンダーを使って対応のない繰り返しのある二元配置分散分析を行うときのデータの形
Excel上のデータをクリップボード(Execl上でコピーして一時記憶に入れたもの)経由でRコマンダーにインポートするためには,Excel上のデータを図3の形に書き換えておく必要がある.Rコマンダーにインポートして使うときは,必ずしも右図3のように要因1順かつ要因2順に並んでいなくてもよく,順序はでたらめでも各行を1件のデータと見たときに必要な個数があればよい.また,Rコマンダーではアンバランスデザインでも扱える.
次に,このデータをクリップボードからインポートするには,図4のように「ファイル内に変数名あり」のチェックをはずしておかなければならない.(図3の形のデータの中には変数名はなく,Rコマンダーにインポートされるときに付けられる.) 最後に,Rコマンダーのメニューから[統計量]→[平均]→[多元配置分散分析]と進むときに,「因子(1つ以上選択)」のところをRコマンダーが付けた変数名V1,V2の2つとも選び,「目的変数(1つ選択)」を選択する.
Rコマンダーにインポートするときに,変数の水準ラベル(上記のA1〜B3)に日本語漢字・ひらがななどの2バイト文字が含まれると,分析結果の出力のときにエラーとなることがあるようです.詳しくは調べていませんが,ラベルを1バイト文字の英数字にする方が安全なようです.
|
図1 【Excelの分析ツールを使って,繰り返しのある対応のない二元配置の分散分析を行うためのデータの形】
|
分析ツール,Rコマンダーから出力される分散分析表の見方
右図6のようなデータについてExcelの分析ツールを使って二元配置分散分析を行ったとき,及び右図7のようなデータについてRコマンダーを使って二元配置分散分析を行ったとき,図9及び図10のような分散分析表が出力される.(紙面の都合上小数第2位まで示す)
これらを確かめるには,画面上でこの表の上をドラッグ(反転表示)→(右クリック)コピー→Excel上に(単純に)貼り付けるとよい.(図7のデータはExcel上に貼り付けた後にクリップボード経由でRコマンダーにインポートする)
これらの出力結果と各データの関係を順を追って解説する.《全体の流れ》 対応のない二元配置分散分析では,右図8のように全体の変動を要因1の効果,要因2の効果,交互作用の効果,誤差に分けて考える.
(全変動)=(要因1による変動)
次に,3つの分散比を求める.+(要因2による変動) +(交互作用による変動) +(個別のデータによる誤差)
(分散比1)= 要因1の分散/誤差の分散
次にこれらの分散比がF検定の境界値よりも大きければ(確率pが0.05よりも小さければ)その要因には有意差があると見なす.(分散比2)= 要因2の分散/誤差の分散 (分散比3)= 交互作用の分散/誤差の分散 そこで,分散分析表はこれらの分散比を求めるために表を順に上から下へ,左から右に組み立てて行き,最終的に分散比と境界値(または確率)を求めるようになっている. Rコマンダーからの出力もこれと対応している.ただし,Rコマンダーの方は境界値は示さずp値とそれが有意水準5%に該当するときは*印,1%に該当するときは**印を付けて表示される. |
|
《各々の数値》 [変動の欄] ・全変動[平方和ともいうSum of Square, SSと略される] =(各々の値-全体の平均)2 の和
図6の表がワークシート上のA1〜D9の範囲にあるとき(数値データの部分がB2:D9の範囲にあるとき)・・・以下においても同様
・標本と書かれているものは第1要因に関するもの,列と書かれているものは第2要因に関するものになっているので,第1要因による変動は標本と変動が交わるセルの値になる.全体の平均 m=60.92を使って, (59−m)2+(60−m)2+(56−m)2+···+(63−m)2 を計算したものが 499.83になる. Rコマンダーでは変数1ということでV1と書かれるもののSum Sq.
第1要因に関する平均を
・第2要因による変動は列と変動が交わるセルの値になる.AVERAGE(B2:D5)=61.83=mA1 AVERAGE(B6:D9)=60.00=mA2 と書くと (mA1−m)2×12+(mA2−m)2×12 を計算したものが 20.17になる. Rコマンダーでは変数2ということでV2と書かれるもののSum Sq.
第2要因に関する平均を
・第1要因と第2要因の2×3組の各々について(各々N=4件のデータがある)その平均と全体平均との変動が交互作用の変動になる.AVERAGE(B2:B9)=59.00=mB1 AVERAGE(C2:C9)=60.00=mB2 AVERAGE(D2:D9)=63.75=mB3 と書くと (mB1−m)2×8+(mB2−m)2×8+(mB3−m)2×8 を計算したものが 100.33になる. RコマンダーではV1:V2と書かれる.
第2要因に関する平均を
・全変動のうちで第1要因,第2要因,交互作用の変動によって説明できない部分が誤差の変動(繰り返し誤差,個別のデータのバラつき)になる.AVERAGE(B2:B9)=59.00=mB1 AVERAGE(C2:C9)=60.00=mB2 AVERAGE(D2:D9)=63.75=mB3 と書くと (mB1−m)2×8+(mB2−m)2×8+(mB3−m)2×8 を計算したものが 100.33になる. RコマンダーではResiduals(残余)と書かれる.
変動の欄で,
(合計)=(標本)+(列)+(交互作用)+(繰り返し誤差) (合計)−(標本)−(列)−(交互作用)=(繰り返し誤差) 499.83−20.17−100.33−200.33=179.00 [自由度の欄]
検定においては,各々の変動の値となるように各変数を動かしたときに,その変動の値が実現される確率が大きいか小さいかによって判断するので,自由に決められる変数の個数(自由度)は平均の数だけ少なくなる.
・第1要因の変数はA1,A2の2個あるが,それらの平均が全体の平均になるように決めるとき,1つの変数の値を決めるともう一方の変数の値は決まるから,自由度は変数の個数2−1となる.
第1要因(標本)の自由度 dfA=2−1=1
・第2要因の変数はB1,B2,B3の3個あるが,それらの平均が全体の平均になるように決めるとき,1つの変数の値を決めるともう一方の変数の値は決まるから,自由度は変数の個数3−1となる.
第2要因(列)の自由度 dfB=3−1=2
・交互作用の変数はA1B1,A1B2,...,A2B3の6個あるが,行の平均及び列の平均が観測された値となるように決めるとき,自由度は(2−1)×(3−1)となる.
交互作用の自由度
・繰り返し誤差の変数は6×4個あるが,交互作用の平均が指定された値となるように決めると,各相互作用の中で1個は自動的に決まってしまうので,繰り返し誤差の変数は6×3個が自由に決められる.
dfA×dfB=(2−1)×(3−1)=2 一般に,右図のようなm×n個のセルの値を決めるときに,行の平均,列の平均が指定された値となるように決めるには,(m−1)×(n−1)個の変数は自由に決められるが残りは自動的に決まる.したがって,自由度は(m−1)×(n−1)となる.
繰り返し誤差の自由度 6×3=18
・合計の自由度はこれら全部の和となるが,一般に第1要因がm個の変数,第2要因がn個の変数,繰り返しの個数Nのとき,
第1要因の自由度m−1
第2要因の自由度n−1 交互作用の自由度(m−1)(n−1) 繰り返し誤差の自由度 mn(N−1) 合計の自由度m−1 +n−1 +nm−m−n+1 +nmN−mn =nmN−1 |
図8
図10 Anova Table (Type II tests) [分散の欄]
変動を自由度で割ったものが分散(不偏分散:母集団の分散の推定値)となる.
[観測された分散比の欄]
第1要因,第2要因,交互作用の分散を各々繰り返し誤差の分散で割ったもの.
[F境界値]
各々の分散比が確率5%となる境界値
例えば,第1要因の分散/繰り返し誤差の分散は,分子の自由度が1,分母の自由度が18だから,ちょうど5%の確率となる分散比は 第1要因2.03<FINV(0.05,1,18)=4.41 有意差なし 第2要因5.04>FINV(0.05,2,18)=3.55 有意差あり 交互作用10.07>FINV(0.05,2,18)=3.55 有意差あり [P-値]
観測された分散比がその分子と分母に対して発生する確率を表す.
「観測された分散比」が「F境界値」よりも大きいかどうかで判断してもよいが,P値が0.05よりも小さいかどうか判断してもよい. この値は FDIST(観測された分散比, 分子の自由度, 分母の自由度) を計算したものを表す. 第1要因FDIST(2.03, 1, 18)=0.17>0.05 有意差なし 第2要因FDIST(5.04, 2, 18)=0.02<0.05 有意差あり 交互作用FDIST(10.07, 2, 18)=0.001>0.05 有意差あり |
分散分析の後の処理の流れ
分散分析表において有意差のあるものが1つもなければそれで終わってしまうが,有意差のあるものがあるときは,さらに吟味しなければならない.
≪後処理のポイント≫
・交互作用が有意のときは,主効果だけを吟味しても意味がないので水準別の各要因の効果(=単純主効果)を吟味する.
交互作用が有意でなければ,各要因が有意かどうか調べればよいが,交互作用が有意の場合は水準別の各要因の効果(=単純主効果)を吟味する.・主効果または単純主効果において有意差のあった要因が3水準以上ある場合には,多重比較を行う. そのために,まず各水準別の平均を計算し,右図11のような折れ線グラフを描くことから始める.右図12のように,交互作用がないときは,折れ線グラフが平行線になるが,1つの要因が他の要因に及ぼす影響が増減の「大きさ」や「向き」に現れるときは交互作用がある.図11は,B2のところで影響の向きが変化する例となっている. ここで示した例では,第1要因は2水準であるが,第2要因は3水準となっているので,交互作用またが第2要因について有意差があればさらに多重比較を行うことになる. |
【用語】 ・第1要因や第2要因による効果を主効果という.これに対して2つの要因が組み合わされて生じる効果を交互作用という. ・交互作用が有意のときは主効果だけで調べても意味がないので,水準別に分けた各要因の効果を調べる.水準別に分けた各要因の効果を単純主効果という. 図11 |
問題
右図13は数学と英語の2つの教科を3人の担当者T1,T2,T3が5人ずつ計30人の生徒に対して個人指導したときの各生徒の得点一覧だとします.
(1) このデータについてExcelの分析ツールを使って分散分析を行い,教科,担当者,交互作用について調べて下の表を埋めてください. (2) 英語で担当者T3のデータ(赤字で示した72点のデータ)がないとき(欠損データになっているとき)は,そこだけ繰り返し回数が異なるためExcelの分析ツールでは分析できませんので,データの形を変えてからRコマンダーにインポートして分析してください.その結果について下の表を埋めてください.
(1)(2)とも答案は小数第3位を切り上げて小数第2位まで答えてください.(例えば0.051が四捨五入で0.05となると有意差の有無が変わってしまうので,ここでは切り上げとします.)
|
図13
(1) 次の値の小数第3位を切り上げます. 観測された分散比P-値F 境界値 7.696 0.011 4.260 0.764 0.477 3.403 6.570 0.005 3.403 (2) 次の値の小数第3位を切り上げます. F valuePr(>F) 3.1890 0.08733 4.0876 0.03027 4.8487 0.01750 |