→ スマホ用は別頁
== t検定 ==
【要約】
2群の平均に有意差があるかどうかを調べる検定は,伝統的には,次の3つに分けて行う
(1) データに対応があるとき ⇒ 対応のあるt検定
なお,最近では「データに対応のない場合には,等分散を仮定できるか否かに関わらずウェルチのt検定で行う」という立場も有力です.(2) データに対応がなく,2群間に等分散性が仮定できるとき ⇒ スチューデントのt検定 (3) データに対応がなく,2群間に等分散性が仮定できないとき ⇒ ウェルチのt検定 すなわち,
(1) 対応のあるt検定
の2つに分ける
(3) ウェルチのt検定 この教材では,対応がないときのt検定について,上記の学説の優劣を判断していません.読者に判断してもらうための材料を提供しているレベルですのでよろしく.(2群の要素数が僅差であるような場合を除けば,多くの場合にWelch検定の方が自由度がかなり小さくなるので,レポートを見れば,どちらのt検定を用いたのかは分かると言われています.)
|
【平均の差の検定:要約】 ◎ 前提:以下において母集団は正規分布に従うとする. 幾つかのグループの「平均の差」が偶然的な誤差の範囲にあるものかどうかを判断したいとき,データの個数が少ないときは偶然的な誤差の範囲も大きくなるが,データの個数が多くなると平均の差が大きな値となることはめったにない. 同一の母集団からの標本と見なしたときに2つのグループの平均の差が両側5%の確率の範囲に入るようなことはめったになく,このような場合は平均に有意差があるとして異なる母集団から取り出された標本であったと見なせる. t検定 t検定は2つのグループの平均の差が偶然誤差の範囲内にあるかどうかを調べるものである.
データの個数と偶然の範囲
|
(1) データに対応があるときのt検定 「それぞれの被験者が2つのテストA,Bを受けたときの平均点の比較」のようにグル-プAのデータとグループBのデータに同一被験者のデータという対応があるとき,これら2つのテストの平均点の差に有意差があるかどうかは「対応があるときのt検定」を用いる. データに対応があるときは,単にデータの個数が等しいだけでなく,対応するデータ間の差を求めることができるので,それらの差の平均と分散から有意差を判断できる.
データに対応があるとき
|
(2) データに対応がないときのt検定 A) 従来から行われてきた方法は,次のように2つのグループの分散が等しいか否かによって,t検定の種類を分けて行う.
分散がほぼ等しいと見なせる場合と分散が等しいとは見なせない場合に応じて,各々「分散が等しいときのt検定」「分散が等しくないときのt検定」を適用する.
分散が等しいかどうかの判断はF検定によって行う.
データに対応がないとき
|
B) 最近有力となっている方法は,分散が等しいか否かに関わらずウェルチの検定で行うものです.
従来から行われてきた方法については,次のような問題点を指摘されることがあります.
@) 2つのグループの分散が「等しい場合」「等しいかどうか疑わしい場合」「等しくない場合」があるときに,従来の考え方でF検定によって「等しくない」とされるのは,等しいという帰無仮説が棄却される場合に限られるが,実際には,「ほとんどの場合は疑わしい」のに「等しいと見なせる場合の公式を当てはめる」ことになっていて,つじつまが合わない. A) F検定の上にt検定を重ねて用いると,誤差が膨らんでくる. そこで,2つのグループの分散が等しいか否かに関わらずウェルチの検定を1回で行うものです.
|
※t分布において「外側5%の範囲にあれば同一母集団からの標本ではなく,有意差があると考える」. 95%信頼区間の外側に来る確率を p とするとき,
※F分布において「確率が上側5%の範囲にあれば分散が等しくないと考える」.
※ 与えられた自由度に対するt値が95%の信頼区間の外にある=外側の確率が5%以下 → 平均値に有意差がある.
(有意水準5%がよく使われる.) ※ 分母分子の自由度に対応するF値が95%の信頼区間の外にある=外側の確率が5%以下 → 分散に有意差がある. (有意水準5%がよく使われる.F分布表[5%点]は分母分子で決まる2つの自由度に対して上側確率が5%となるFの値を示している.) |
筆者が作動確認したのは,次の4種類です
例1 ・・・対応がある場合の例@Excel2007 AExcel2010 BWeb上にあるフリーのExcel Online C統計用フリーソフトR
(1) (対応があるときは分散が等しいかどうかによって適用公式は変らないから,F検定は行わなくてもよい.) (*) 対応がある場合のt検定を行う: @Excel2007 AExcel2010 BExcel Online
ワークシート関数TTESTを用いる場合
=TTEST(B2:B7,C2:C7,2,1)
・・・[第3引数は両側検定のとき2,片側検定のとき1] ・・・[第4引数は対応のある場合1,等分散が仮定できるとき2,非等分散のとき3] は0.04050となり,0.04...<0.05だから,2回の平均値に有意差があると判断できる. 分析ツールを用いる場合
(1) (F検定は行わなくてもよい.)
(2) 一対の標本による平均の検定を行う: データ→データ分析→ 分析ツール→「t検定 : 一対の標本による平均の検定ツール」→[OK]→ 変数1の入力範囲: → $B$2:$B$7 変数2の入力範囲: → $C$2:$C$7 範囲にラベルを含めていなければ,「ラベル」にチェックをしない. 「仮説平均との差異」を空欄のままにするかまたは0を記入すれば帰無仮説として平均が等しいとした場合になる. αは初期設定のままで0.05となる. |
※ |t| の値は外側に行くほど大きくなる.
このとき,両側確率5%となる境界値を与えるtの値が「t境界値 両側」と表示されている値なので (ア) |t値|>t境界値 両側 (イ) p値<0.05 のいずれかで有意差があると判断できる
P(T<=t) 両側 0.04..<0.05だから,2つの母集合の平均値に有意差があると判断できる.
または,2.571<| -2.745|だから,2つの母集合の平均値に有意差があると判断できる. CRにおける操作
> first<-c(54.3,55.2,55,56.4,53.1,53.1) > second<-c(56.5,54.8,58.2,57.8,59,60.7) > t.test(first,second,paired=TRUE) Paired t-test data: first and second t = -2.7459, df = 5, p-value = 0.04051 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -6.4215895 -0.2117438 sample estimates: mean of the differences -3.316667
以上の出力から,p値=0.04051<0.05だから有意差があると判断できる
または,95%信頼区間−6.4215895〜−0.2117438の中に「0」が入ってないから,平均値の差は「0」でないと言ってもよい. |
例2 ・・・対応がなく等分散の場合の例
@Excel2007 AExcel2010 BExcel Online
ワークシート関数 FTEST, TTESTを用いる場合
(1) まずF検定を行い,分散に有意差があるかどうか調べる
=FTEST(B2:B7,C2:C5) は0.88となり,両側確率で0.88だから片側確率は 0.44 となり,0.44>0.05だから,2つの母集合の分散に(有意水準5%で)有意差はないと判断できる.
(2) 等分散のときのt検定を行う
=TTEST(B2:B7,C2:C5,2,2)
・・・ [2:両側検定,2:等分散] は0.48となり,0.48>0.05だから,2つの母集合の平均値に有意差はないと判断できる.(見かけの差は誤差の範囲である.) 分析ツールを用いる場合
(1) まずF検定を行い分散に有意差があるかどうか調べる
メニュー→ツール→分析ツール→「F-検定 : 2 標本を使った分散の検定」→[OK]→
変数1の入力範囲: → $B$2:$B$7 変数2の入力範囲: → $C$2:$C$5 範囲にラベルを含めていなければ,「ラベル」にチェックをしない. αは初期設定で0.05となっている
⇒ 0.44>0.025だから,2つの母集合の分散に有意水準5%で有意差はないと判断できる.
|
(2) 等分散のときのt検定を行う:
P(T<=t) 両側 0.48..>0.05だから,2つの母集合の平均値に有意差はないと考える.
または,|−0.73|<2.31だから,2つの母集合の平均値に有意差はないと考える. CRにおける操作
> a_group<-c(31,29,30,32,28,29) > b_group<-c(29,31,32,30) > var.test(a_group,b_group) F test to compare two variances data: a_group and b_group F = 1.3, num df = 5, denom df = 3, p-value = 0.8828 alternative hypothesis: true ratio of variances
p値=0.8828>0.05だから2つの母集団の分散に有意差はないと考える
-----------------または,母分散の比の95%信頼区間が「1」を含むから,母分散の比は統計的に等しいと考えます > t.test(a_group,b_group,var.equal=TRUE) Two Sample t-test data: a_group and b_group t = -0.73413, df = 8, p-value = 0.4838 alternative hypothesis: true difference in means
p値が0.4838>0.05だから2つの母集合の平均値に有意差はないと考える.
または,95%信頼区間−2.760758〜1.427425が「0」を含むから,平均値の差は「0」であると考えてもよい. |
★分散が等しいか否かに関わらずウェルチの検定で行う場合 例2’ ・・・対応がなく等分散の場合の例
@Excel2007 AExcel2010 BExcel Online
ワークシート関数TTEST()を用いる場合
不等分散のときのt検定を行う
=TTEST(B1:B7,C1:C5,2,3)
・・・ [2:両側検定,3:不等分散] は0.4736...となり,0.4736...>0.05だから,2つの母集合の平均値に有意差はないと判断できる.(見かけの差は誤差の範囲である.)
ワークシート関数TTEST()を用いる場合は,この例のように列ラベル(Aグループ,Bグループ)を範囲に含めて指定しても,=TTEST(B2:B7,C2:C5,2,3)のように、列ラベルを範囲に含めずに指定しても,同じ結果が得られる.(文字列から成るラベルの有無は自動判別される)
分析ツールを用いる場合
不等分散のときのt検定を行う:
|
P(T<=t) 両側 0.47..>0.05だから,2つの母集合の平均値に有意差はないと考える.
または,|−0.75|<2.36だから,2つの母集合の平均値に有意差はないと考える.
分析ツールを利用する場合に,列ラベル(Aグループ,Bグループ)を範囲に含めて指定して「ラベル」にチェックを入れておけば,出力結果にラベルが反映される.
列ラベルを範囲に含めずに指定して「ラベル」のチェックをはずしておけば,この例のように出力結果に「変数 1」「変数 2」というラベルが付けられる. CRにおける操作
> a_group<-c(31,29,30,32,28,29) > b_group<-c(29,31,32,30) > t.test(a_group,b_group) Welch Two Sample t-test data: a_group and b_group t = -0.75593, df = 7.2059, p-value = 0.4737 alternative hypothesis: true difference in means
p値が0.4737>0.05だから2つの母集合の平均値に有意差はないと考える.
または,95%信頼区間−2.74..〜1.40..が「0」を含むから,平均値の差は「0」であると考えてもよい.
Rのt.test()関数では,
[1] 等分散を仮定しないということを,第3引数に var.equal=FALSEと書く t.test(a_group,b_group,var.equal=FALSE)
[2] 第3引数を省略して,次の形に書いてもWelch検定になるt.test(a_group,b_group)
[*] なお,等分散を仮定するとき:var.equal=T, TRUE, 1は可能ですが,小文字を含む書き方var.equal=t, True, trueなどは使えないようです.同様にして,不等分散を仮定するとき:var.equal=F, FALSE, 0は可能ですが,小文字を含む書き方var.equal=f, False, falseなどは使えないようです. |
例3 ・・・対応がなく不等分散の場合の例
@Excel2007 AExcel2010 BExcel Online
ワークシート関数 FTEST, TTESTを用いる場合
(1) まずF検定を行い,分散に有意差があるかどうか調べる
=FTEST(B2:B13,C2:C11) は0.017となり,両側確率が0.017だから片側確率は 0.0085
となり,0.0085<0.05だから,2つの母集合の分散に有意差があると判断できる.
(2) 不等分散のときのt検定を行う
=TTEST(B2:B13,C2:C11,2,3) ・・・ [2:両側検定,3:不等分散]
は0.11となり,0.11>0.05だから,2つの母集合の平均値に有意差はないと判断できる. 分析ツールを用いる場合)
(1) まずF検定を行い分散に有意差があるかどうか調べる
メニュー→ツール→分析ツール→「F-検定 : 2 標本を使った分散の検定」→[OK]→
変数1の入力範囲: → $B$2:$B$13 変数2の入力範囲: → $C$2:$C$11 範囲にラベルを含めていなければ,「ラベル」にチェックをしない. αは初期設定で0.05である
0.009<0.025だから,2つの母集合の分散に有意差があると判断できる.
分析ツール→F検定では,変数1の入力範囲に「分子側=不偏分散の大きい側」,変数2の入力範囲に「分母側=不偏分散の小さい側」を指定したときに,統計の教科書に書かれている通りのF≧1となる値が表示されるが,右の例の出力結果は,分母分子の順序を考えずに使用したため「観測された分散比=F値」が<1となったものである.この逆数 1/0.207 が通常のF値=4.83となる. |
(2) 不等分散のときのt検定を行う
メニュー→ツール→分析ツール→「t検定 : 分散が等しくないと仮定した2標本による検定」→[OK]→
変数1の入力範囲: → $B$2:$B$13 変数2の入力範囲: → $C$2:$C$11 範囲にラベルを含めていなければ,「ラベル」にチェックをしない. 「仮説平均との差異」を空欄のままにするかまたは0を記入すれば帰無仮説として平均が等しいとした場合になる. αは初期設定のままで0.05となる.
P(T<=t) 両側 0.108>0.05だから,2つの母集合の平均値に有意差はないと判断できる.
または,2.179>| -1.739|だから,2つの母集合の平均値に有意差はないと判断できる. CRにおける操作
> kou<-c(0.987,1.723,3.1,2.143,1.212,1.483,2.31,1.45,2.077,1.155,1.467,1.34) > otsu<-c(1.037,3.125,1.88,3.805,1.108,3.985,3.71,1.323,1.03,3.93) > t.test(kou,otsu) Welch Two Sample t-test data: kou and otsu t = -1.7388, df = 12.083, p-value = 0.1075 alternative hypothesis: true difference in means
p値が0.1075>0.05だから2つの母集合の平均値に有意差はないと考える.
または,95%信頼区間−1.7..〜0.19..が「0」を含むから,平均値の差は「0」であると考えてもよい.
Rのt.test()関数では,第3引数を省略すれば,Welch検定となる(var.equal=FALSE)
|
(以下の○1〜○8は参考) F分布表,F検定,t検定とExcel関数,分析ツールの読み方 ○1 F分布表
|
次の例では,「分子の自由度3,分母の自由度4でF値が9.98のとき上側確率が2.5%になる」ことを表わしている.(「分子の自由度3,分母の自由度4のとき上側確率が2.5%になるのはF値が9.98のときである」ことを表わしている.)
|
○2 Excel関数でF分布を表わすもの メニュー→挿入→関数→統計 で表示されるものの内で,
|
○3 F値と分散との関係 (1) 2つの母集団から抽出された標本の不偏分散(標本から推定される母集団の分散)をV1≧V2≧0とするとき 例 上の表では V1 = VAR(B2:B7) = 2.17, V2 = VAR(C2:C5) = 1.67,F = V1/V2 = 2.17/1.67 = 1.3 (2) 次に,「2.5%のF分布表で,上欄の自由度6-1=5,左欄の自由度4-1=3」の交わるところで読み取ると14..88となるから,上側確率2.5%(両側確率5%)はF=14.88のときに実現され,観測されたF値は1.3<14.88だから分散には有意差なしとする. Excel上では =FDIST(F値, 分子自由度5, 分母自由度3) = 0.44で上側確率が0.025より大きいから分散には有意差なしとする. または,=FINV(0.025,分子自由度5, 分母自由度3) = 14.88>1.3だから分散には有意差なしでもよい. |
○4 分析ツール→F検定で出力される表
(1) 分析ツールのパラメータ指定に当たって,「変数1の入力範囲」としては不偏分散の大きい方(右図では乙)を指定し,「変数2の入力範囲」としては不偏分散の小さい方(右図では甲)を指定すると,通常用いられるF値が「観測された分散比」に表示される.(逆順の場合はその逆数となる.) 出力される表は両側検定のものなので有意水準5%の検定のときはα=0.025とする.
FDIST(F値,乙側の自由度,甲側の自由度)=0.0086 FINV(0.025,乙側の自由度,甲側の自由度)=3.5879 FTESTは甲乙の順にかかわらず同じ値となりF検定の両側確率を表示する: FTEST(甲の値の範囲,乙の値の範囲) = 0.017=0.0086×2 |
○5 t検定に使うExcel関数 =TTEST(配列1, 配列2, 尾部, 検定の種類) により,t値に対応する外側確率が返される. 尾部は,片側検定なら1,両側検定なら2とする. 検定の種類は,対応がある場合は1,分散が等しい場合は2,分散が等しくない場合は3とする. 例 次の甲乙の資料の平均値に有意差があるかどうか検定するには,先にF検定を行ってFTEST(B2:B7, C2:C5)が0.88だから上側確率は0.44となり,分散が等しい(=有意差なし)と判断でき, =TTEST(B2:B7, C2:C5, 2, 2) により 0.483>0.05となるから有意差なし.
|
○6 分析ツールの「t-検定 : 等分散を仮定した2標本による検定」出力結果 等分散の場合のt値は次の公式で計算される: 上の表・・・次の出力結果では (ただし,出力結果の「分散」は不偏分散,自由度1=6-1=5,自由度2=4-1=3)
|
○7 分析ツールの「t検定 : 分散が等しくないと仮定した2標本による検定」出力結果 不等分散の場合のt値は次の公式で計算される:
|
○8 分析ツールの「t検定 : 一対の標本による平均の検定ツール」出力結果 対応がある場合のt値は次の公式で計算される: 次の表と出力結果では
|
|
(参考) (1) 確率変数の変換については,次の式が成り立つ. • 期待値に関する性質 ・・・@ ・・・A • 分散に関する性質 が独立であれば ・・・B ・・・C 特に,Cが成り立つことに注意 (2) 母集団が平均値μ,標準偏差σの正規分布に従うとき,n個の標本X1〜Xnの平均値をとすると は,自由度n−1のt分布になる. 確率変数Xから引き出したm個の値X1〜Xmと,確率変数Yから引き出したn個の値Y1〜Ynがあるとする.それぞれの標本平均を,標本不偏分散をとする. このとき,変数X−YはACにより ・・・D は,t分布になる.・・・この式がウェルチ公式になる なお,ウェルチ公式における自由度は,整数値とは限らず,次のような小数値で近似されている.覚えるのは難しい.(この自由度は,ExcelやRを使えば,ソフトの側で計算してくれる) |
(3) 確率変数X, Yの「分散が等しいと見なせる」場合 共通の分散を,(標本のすべての変動)÷(自由度)で表すと この式が「等分散を仮定できる場合」のプールされた分散,すなわち,2つの分散を各々m−1個,n−1個集めて,合計(m−1)+(n−1)で平均して1つの分散と見なしたものとなっている. ・・・E ・・・この式が等分散の場合のtの式になる (4) m=nのときは,DとEは同じ式になる. (5) m, n>25とかm, n>30のような大標本の場合は,DEを標準正規分布と見なして,z検定にすればよい.(自由度は関係なくなる) |
■■問題例■■ (1)「対応のあるt検定」,(A)「元の観測データ有り」,「両側検定」の場合
【例1A.1】
===@AB Excelで計算する場合 ===7人の生徒に,2つの条件のもとで50m走を行ってもらい,その時間を測定したとき,次の表のようになった.これら2つの条件は50m走の時間に影響したと言えるか.
@Excel2007 AExcel2010 BExcel Onlineでほぼ同じ操作になる
ア) ワークシート関数TTEST(), TINV()を使うとき
ワークシート関数は1つの関数が1つの結果を返すため,この問題のように7個の値が必要な場合には,関数を7個書く必要があり,それなりに大変である.
しかし,ワークシート関数から得られる結果は,元データが更新された場合に,リアルタイムで結果が追随するという良さはある. 別ルートから計算しているので,点検作業という意味はある.
T.TEST(範囲1, 範囲2, 片側両側の指定, 検定の種類)⇒確率
• Excel2007ではTTEST( ), Excel2010〜ではT.TEST( )
によりt検定の確率[p値]が得られる• 第3引数は,1が片側検定,2が両側検定を表す • 第4引数は,1が対応のある検定,2が対応なし等分散,3が対応なし不等分散 ※なお,条件1,条件2というラベルを「含める」「含めない」は両方同じに揃えると自動で判別される. この問題では, T.TEST(A群の範囲, B群の範囲, 2,1)⇒0.069..
TINV(確率[p値],自由度)⇒t値
• 対応のあるt検定の自由度は,対の数−1とする.この問題では,対が7あるから,自由度は6
この問題では,=TINV(上記の確率[p値]0.069.., 6)⇒t値2.21..となるなお,有意水準5%の両側検定t境界値を求めるには
TINV(0.05,自由度)⇒t値
とするとよい.
この問題では,=TINV(0.05, 6)⇒2.447..となる
※なお,t検定に関するExcelワークシート関数には,もう1つ関数TDIST( )がある.
各々の群の平均と分散を求めるには,
TDIST(t値,自由度, 片側1両側2)⇒p値
により,与えられたt値に対する確率[p値]が求まるが,上記の手順で行えば,p値は既に求まっているから,確認・点検という使い方はできる.
AVERAGE(A群の範囲), AVERAGE(B群の範囲), VAR(A群の範囲), VAR(B群の範囲) とする.
【結果のまとめ方】
表1は,条件1と条件2に対する50m走の平均と標準偏差(秒)を示したものである.(N=7)
• t( )の括弧内に自由度を書く
• 小数点の前の0は省略する. 0.05 → .05 • 5%, 1%有意差がある場合,*p<.05, **p<.01を欄外に書き,図または表で対応するデータに*や**を付けることが多い.この表では対応するものがないので,*も**もない. |
イ) 分析ツールを使うとき 次のような表が出力される. t-検定: 一対の標本による平均の検定ツール 変数 1 変数 2 平均 7.314 7.586 分散 1.555 1.071 観測数 7.000 7.000 ピアソン相関 0.976 仮説平均との差異 0.000 自由度 6.000 t -2.209 P(T<=t) 片側 0.035 t 境界値 片側 1.943 P(T<=t) 両側 0.069 t 境界値 両側 2.447
【結果のまとめ方】
===C Rで計算する場合 ===ア)と同様に書く > cond1<-c(7.5, 8.5, 9.3, 6.3, 5.7, 6.8, 7.1) > cond2<-c(7.8, 8.1, 9.5, 6.8, 6.3, 7.2, 7.4) > t.test(cond1, cond2, paired=TRUE) Paired t-test data: cond1 and cond2 t = -2.2087, df = 6, p-value = 0.06927 alternative hypothesis: true difference in means
• 各群のデータをベクトルとして入力する
• t.test()の第3引数をpaired=TRUEとする
【結果のまとめ方】
===D筆算で計算する場合 ===ア)と同様に書く
なお,標準偏差は対の個数Nで割るものである. 次の公式に代入する ≒2.208
統計の教科書などの巻末に付いている右図のようなt分布表を見て,t≒2.20は,自由度6のときのt分布表のt境界値(両側)2.447よりも小さいことを確かめる.
【結果のまとめ方】
ア)と同様に書く(p値は書けない) (1) 対応のあるt検定, [B] 要約データのみ有りの場合
【例1B.1】
(集約データのみのときは,筆算で行う)7人の生徒に,2つの条件のもとで50m走を行ってもらい,その時間を測定したとき,次の表のようになった.これら2つの条件は50m走の時間に影響したと言えるか.
次の公式に代入する
【結果のまとめ方】
ア)と同様に書く(p値は書けない) |
(1)「対応のあるt検定」,(A)「元の観測データ有り」,「片側検定」の場合
【例1A.2】
===@AB Excelで計算する場合 ===
この一覧表では8人の被験者について,ダイエット法実施前後の体重が対のデータとなっている. これらのデータからA欄の値とB欄の値を比較すると,A欄のデータとB欄のデータは同一被験者のデータであるので,A欄とB欄の差はダイエット法の効果と見ることができる. この場合,ダイエット法の効果があるとは「体重が減少している」という意味であるから片側検定を用いて,ダイエット効果があるかどうか判断してください.
@Excel2007 AExcel2010 BExcel Onlineでほぼ同じ操作になる
ア) ワークシート関数TTEST(), TINV()を使うとき
=TTEST(条件1範囲, 条件2範囲, 1, 1)
• 第3引数は,片側検定のとき1,両側検定のとき2・・・この問題では,「1」の片側検定を指定
結果⇒0.041..• 第4引数は,t検定の種類を指定する.この問題のような「対応のあるt検定」の場合は「1」 ※なお,前,後というラベルを「含める」「含めない」は両方同じに揃えると自動で判別される. p値だけで判断するときは,ここまででよいが,一般的な報告書のようにt値も付けるには
=TINV(上記のp値×2, 自由度)
とする.
• Excelワークシート関数のTINV()は両側検定の場合のt値を返すので,この問題のように片側検定のt値を求めるには,確率を2倍しておく(両側で5%の図を片側で5%にする)
結果⇒2.014..• 対応のあるt検定の自由度は,対の数−1とする.この問題では,対が8あるから,自由度は7 有意水準5%の両側検定t境界値を求めるには
TINV(0.05,自由度)⇒t値
とするとよい.この問題では,=TINV(0.05, 6)⇒2.364..となる
【結果のまとめ方】
表1は,ダイエット法を実施する前後の平均体重と標準偏差(kg)を示したものである.(N=8)
*p < .05, **p < .01
|
イ) 分析ツールを使うとき 次のような表が出力される. t-検定: 一対の標本による平均の検定ツール 前 後 平均 53.3 52.0625 分散 3.137 6.208 観測数 8 8 ピアソン相関 0.716 仮説平均との差異 0 自由度 7 t 2.014 P(T<=t) 片側 0.041 t 境界値 片側 1.894 P(T<=t) 両側 0.083 t 境界値 両側 2.3641
【結果のまとめ方】
===C Rで計算する場合 ===ア)と同様に書く > before<-c(54.3, 51.9, 55.2, 55.3, 53.8, 52.1, 53.6, 50.2) > after<-c(52.6, 48.7, 56.7, 52.5, 52.1, 53.3, 51.4, 49.2) > t.test(before,after,paired=TRUE, alternative="greater") Paired t-test data: before and after t = 2.0142, df = 7, p-value = 0.04192 alternative hypothesis: true difference in means
• 各群のデータをベクトルとして入力する
• t.test( )の第3引数をpaired=TRUEとする • t.tset( )の第4引数を,
両側検定ならば alternative="two.sided",
とする(上記のTRUEとは異なり引用符に囲まれた"文字列"として"less", "greater"を書く)
左側が小さい片側検定ならば alternative="less", 左側が大きい片側検定ならば alternative="greater"
【結果のまとめ方】
===D筆算で計算する場合 ===ア)と同様に書く
なお,標準偏差は対の個数Nで割るものである. 次の公式に代入する 統計の教科書などの巻末に付いているt分布表を見て,t≒2.014は,自由度7のときのt分布表のt境界値(片側)1.894よりも大きいことを確かめる.
【結果のまとめ方】
ア)と同様に書く(p値は書けない) |
(2)「対応のないt検定」,(A)「元の観測データ有り」,「両側検定」の場合
【例2A.1】
この測定結果から,男女間で50m走の時間に有意差が見られるかどうか,対応のないt検定で判断してください.
「F検定→等分散を仮定したT検定」の2段階で行う場合
===@AB Excelで計算する場合 ===
@Excel2007 AExcel2010 BExcel Onlineでほぼ同じ操作になる
ア)Excelのワークシート関数で行うとき関数FTEST(A群, B群)は,A群とB群の分散の差異が認められない「両側確率」を返す. F検定を両側検定で行うと,分散に差異がある場合だけでなく,一致し過ぎる「≒0」場合も検出する. しかし,ほとんどのF検定で,分散に有意差があると見なすときは,一致する場合は含めないので,F検定は片側検定で行う. 右図のように,片側確率が5%以下であるかどうかを検定するには FTEST(A群, B群)/2
とするとよい.結果⇒0.4891.. p値>0.05だから等分散という仮定は棄却されない.
=TTEST(A群, B群, 2, 2)
• 第3引数は,片側検定のとき1,両側検定のとき2・・・この問題では,「2」の両側検定を指定
結果⇒0.019..• 第4引数は,t検定の種類を指定する.この問題のような「等分散が仮定できるt検定」の場合は「2」 ※なお,前,後というラベルを「含める」「含めない」は両方同じに揃えると自動で判別される. p値だけで判断するときは,ここまででよいが,一般的な報告書のようにt値も付けるには
=TINV(上記のp値×2, 自由度)
とする.結果⇒2.671.. 結果をまとめるには,この他に各群の平均と不偏分散[標本の個数N−1で割る方]が必要であるから,=AVERAGE( ), =VAR( )で求めておく.
【結果のまとめ方】
イ) 分析ツールを使うとき表1は,男子9人,女子6人,計15人の50m走の平均時間(秒)と分散を示したものである.
*p < .05, **p < .01
《初めに等分散の検定を行う》 データ→データ分析→F検定により,次のような表が出力される. F-検定: 2 標本を使った分散の検定 男子 女子 平均 7.766.. 8.533.. 分散 0.305 0.282.. 観測数 9 6 自由度 8 5 観測された分散比 1.079.. P(F<=f) 片側 0.489.. F 境界値 片側 4.818.. またはF値=1.079<4.818だから等分散という仮定は棄却されない |
《次に,等分散を仮定したT検定を行う》 データ→データ分析→t検定:等分散を仮定した2標本・・・により,次のような表が出力される. t-検定: 等分散を仮定した2標本による検定 男子 女子 平均 7.766.. 8.533.. 分散 0.305 0.282.. 観測数 9 6 プールされた分散 0.296.. 仮説平均との差異 0 自由度 13 t -2.671.. P(T<=t) 片側 0.009.. t 境界値 片側 1.770.. P(T<=t) 両側 0.019.. t 境界値 両側 2.160..
【結果のまとめ方】
===C Rで計算する場合 ===ア)と同様に書く 《初めに等分散の検定を行う》
Rで2群の分散を比較する関数 var.test( )の使い方
前述のExcel分析ツールと同じ結果を得るには,次のように「片側検定,男子が大きいか?」という引数を指定する.
var.test(x, y, ratio=1, alternative=.., conf.level=..) • var.test( )の書式で使い,第1,第2引数は必須.2群のデータをベクトルで書く. • 第3引数以下を省略した場合は,デフォルトで両側検定となる. • 第3引数以下は,引数の位置ではなく,ratio, alternative, conf.levelなどの名前タグを用いて指定する. • alternative="two.sided"もしくはalternative="t"により両側検定になる. • alternative="less"もしくはalternative="l"により,第1引数の分散の方が「小さい」という片側検定を行い、alternative="greater"もしくはalternative="g"により,第1引数の分散の方が「大きい」という片側検定を行う. • conf.level=0.95により95%の信頼区間が返されるが,これは省略した場合でも既定値となっている. > boy<-c(7.3,8.2,8.6,7.3,7.9,8.1,7.3,7.0,8.2) > girl<-c(8.6,8.4,9.5,7.9,8.3,8.5) > var.test(boy,girl,alternative="greater") F test to compare two variances data: boy and girl F = 1.079, num df = 8, denom df = 5, p-value = 0.4891 alternative hypothesis: true ratio of variances またはF値=1.079は95%信頼区間0.223〜∞に入るから等分散という仮定は棄却されない 《次に,等分散を仮定したT検定を行う》 > t.test(boy,girl,var.equal=TRUE) Two Sample t-test data: boy and girl t = -2.6718, df = 13, p-value = 0.0192 alternative hypothesis: true difference in means またはt値=−2.67は95%信頼区間−1.39〜−0.147に入らないから平均値が等しいという仮定は棄却される
【結果のまとめ方】
前述と同様 |
Welch検定で行う場合
===@AB Excelで計算する場合 ===
@Excel2007 AExcel2010 BExcel Onlineでほぼ同じ操作になる
ア)Excelのワークシート関数で行うとき
=TTEST(A群, B群, 2, 3)
• 第3引数は,片側検定のとき1,両側検定のとき2・・・この問題では,「2」の両側検定を指定
結果⇒0.02063..• 第4引数は,t検定の種類を指定する.この問題のような「不等分散のt検定」の場合は「3」 ※なお,前,後というラベルを「含める」「含めない」は両方同じに揃えると自動で判別される.
※あら不思議!?何度計算しても,次に述べる分析ツールの結果とは小数第4位以下が合わない.Rの結果とこのワークシート関数の結果は一致する!?
p値だけで判断するときは,ここまででよいが,一般的な報告書のようにt値も付けるには
=TINV(上記のp値, 自由度)
とする.結果⇒2.70..
この報告書を完成させるには「自由度」を求めて,上記の関数に代入しなければならないが,この自由度を計算するのは,かなり大変.
結果をまとめるには,この他に各群の平均と不偏分散[標本の個数N−1で割る方]が必要であるから,=AVERAGE( ), =VAR( )で求めておく.
総合的に考えると,このようにワークシート関数だけで行うのはかなり煩わしい計算になる・・・点検用として参考にする程度と考えるとよい.
【結果のまとめ方】
表1は,男子9人,女子6人,計15人の50m走の平均時間(秒)と分散を示したものである.
*p < .05, **p < .01
|
イ) 分析ツールを使うとき データ→データ分析→t-検定: 分散が等しくないと仮定した2標本・・・により,次のような表が出力される. t-検定: 分散が等しくないと仮定した2標本による検定 男子 女子 平均 7.766.. 8.533.. 分散 0.305 0.282.. 観測数 9 6 仮説平均との差異 0 自由度 11 t -2.693.. P(T<=t) 片側 0.010.. t 境界値 片側 1.795.. P(T<=t) 両側 0.02088.. t 境界値 両側 2.200.. または|t|値=2.693>2.20だから平均値が等しいという仮定は棄却される
【結果のまとめ方】
※Welch検定を用いたということは,自由度がm+n−2よりも小さいことから分かる.
===C Rで計算する場合 ===ア)の場合とほぼ同じ > boy<-c(7.3,8.2,8.6,7.3,7.9,8.1,7.3,7.0,8.2) > girl<-c(8.6,8.4,9.5,7.9,8.3,8.5) > t.test(boy,girl,var.equal=FALSE) Welch Two Sample t-test data: boy and girl t = -2.6938, df = 11.169, p-value = 0.02064 alternative hypothesis: true difference または95%信頼区間に「0」が入っていないから平均値が等しいという仮定は棄却される
【結果のまとめ方】
※Welch検定の自由度t(11)は,小数点以下切り捨てた整数値で書けばよい.
前述と同じ |
■[個別の頁からの質問に対する回答][F検定→t検定について/17.2.7]
どうして、大学のテキストは同じ内容があれほど難解に記述するのか、と痛感するばかりです。このページを読むことでようやくテキストの大意がつかめました。ありがとうございました。
■[個別の頁からの質問に対する回答][F検定→t検定・・・平均値の差の検定について/17.2.5]
=>[作者]:連絡ありがとう. わかりません
=>[作者]:連絡ありがとう.何も手掛かりが書いてないので答えようがありません. |