■z検定,t検定【前提】この頁では母集団の分布が正規分布であると仮定できる場合を扱う.また,有意水準(めったに起こらない確率)を5%とする. |
【記号の約束】 標本の平均や標準偏差をアルファベット , sで,母集団の平均,標準偏差をギリシャ文字μ,σで表す. |
○正規分布
平均がμ0,分散がσ2の母集団からとられた大きさnの標本の平均は,
[z検定]・・・正規分布を用いた検定
平均がμ0,分散がσ2の母集団からとられた大きさnの標本の平均が,
□z値を用いた検定 ⇒ z>1.96またはz<−1.96のときは有意差ありとして,μ=μ0という仮説を棄却する.この式を変形すると, □p値を用いた検定 ⇒ 棄却域に入る確率が直接計算できるときは,p<0.05(5%)のときは有意差ありとして,μ=μ0という仮説を棄却する. |
○t分布 平均がμ0の母集団からとられた大きさnの標本の平均は, は自由度n−1のt分布になる. □p値を用いた検定 ⇒ 棄却域に入る確率が直接計算できるときは,p<0.05(5%)のときは有意差ありとして,μ=μ0という仮説を棄却する. ※ 検定においては「母集団の平均や分散がある値に等しい」と仮定して,その標本の分布がどうなるかを調べる.母集団の平均や分散についての仮説から標本平均がある値となる確率を計算し,めったに起こらない確率になれば元の仮説が間違っているという論法をとる. (もし,平均値が等しくない方を仮定すれば「どれだけ等しくないかの程度によって無限の場合分け」を要し,標本平均の分布について推論を進めることができない.) |
■この頁で扱う主な内容■
○1組の標本について,その標本から推定される母集団の平均値がある値に等しいかどうかを判断することを平均値の検定という.
平均値の検定では,検定すべき母集団の平均値が示される.
(1) 母集団の分散も示されているときはこれに従って分布しているものと仮定したときに,与えられた標本が抽出されることがめったに起こらないならばその標本の母集団は示された値とは異なると判断できる.(z検定) i) 母集団の分散が示されていないときで,標本の個体数が多い(標本が"大きい"という.概ね n≧30)ときは,母集団の分散は標本の分散に等しいとみなして正規分布を用いればよい.(z検定) ii) 母集団の分散が示されていないときで,標本が小さい(概ね n<30)ときは,母集団の分散は標本の分散から求められる不偏分散に等しいとみなしてt分布を用いればよい.(t検定) |
○2組の標本から推定される各々の母集団の平均値が等しいかどうかを判断することを平均値の差の検定という.
平均値の差の検定についても標本の個体数が多いか少ないかによって,z検定,t検定に分かれる.
正規分布の形は決まっているが,t分布は標本の大きさn(正確には自由度n-1)によって形が変わるので,各自由度に応じたt分布を用いる. |
■z検定
【例1】
[ポイント]標本平均が=56,母標準偏差がσ=8,標本の大きさがn=16のとき,
帰無仮説 H0:μ=50
の検定をせよ.
対立仮説 H1:μ≠50 標本の大きさはn=16であるが,母集団の分散が既知だから正規分布を用いる. 対立仮説がH1:μ≠50だから両側検定とする. (解答) >1.96だから,帰無仮説を棄却し,対立仮説を採択する.
|
【例2】
[ポイント]ある規格の製品は重さの平均がμ=50(g)で標準偏差がσ=3(g)となるように作られている.12個の製品を抽出して重さを測定したところ,次のようなデータを得た.
(架空データ) 標本の大きさはn=12であるが,母集団の分散が既知だから正規分布を用いる. 大きいのではないかとか,小さいのではないかという偏った疑いを持っているわけではないから両側検定とする. (解答) =48.4 = -1.84>-1.96だから,帰無仮説は棄却されない.
【例3】
[ポイント]ある県で模擬試験を受けた生徒から50人を無作為抽出してしたところ,平均63点,標準偏差11点であった.このことから,この県の生徒の得点は全国平均60点よりも高いといえるか.有意水準5%で検定せよ. (架空データ) 標本の大きさがn=50だから,母集団の標準偏差は標本の標準偏差に等しいと見なせる.また,正規分布が使える. 超えるのではないかということに関心があるのだから片側検定とする. 片側検定のときは|z|=1.645が境界値となる. (解答) =1.92>1.645だから,帰無仮説は棄却される.したがって,高いといえる.
|
|||||||||||||||||
■t検定
【例4】
[ポイント]ある果物の出荷時の平均重量は55.0gである.この果物を実験的な環境で育てたとき,出荷時の重量は次のようになった.
(架空データ) 標本の大きさがn=14<30だから,t検定による. 増減のいずれにも関心があるから両側検定とする. ■電卓とt分布表によるt検定 標本の平均値 =54.5 母平均 μ=55.0 標本の標準偏差 s=2.81 自由度 ν=14-1=13
|
|
【例5】
問題の出典:2つの銘柄のおのおのから選ばれた100個の電球をテストしてその平均寿命について,=1160 , s1=90 , =1140 , s2=80を得たとする. これら2つの銘柄の電球の平均寿命に有意差が認められるか. 「初等統計学」(培風館/P.G.ホーエル著/浅井晃.村上正康共訳)第4版31刷 p.172本文 [ポイント] 標本の大きさがいずれも30よりも大きいからz検定による. 等しいか等しくないかに関心があるから両側検定とする. ■電卓と正規分布表によるz検定 右欄の公式によりz値を求める.
|
※[復習] ○ 合成変数の分散 変数xの標準偏差をsx(分散はsx2),変数x , yの共分散をsxyで表すとき,合成変数x+y及びx−yの分散については,次の関係が成り立つ.
sx+y2=sx2+2sxy+sy2
sx−y2=sx2−2sxy+sy2
sx+y2=sx2+sy2…(1)
sx−y2=sx2+sy2…(2) したがって,独立な2変数x , yの標本平均の分散が各々, であるとき,それらの差の分散はになる.
○ n1≧30 , n2≧30のとき,は標準正規分布をなす.
|
【例5】
次のデータは,20匹のネズミのうち,その半分は生の落花生から,他の半数は炒った落花生からタンパク質をとらせたときの摂取量を示す.落花生を炒ることがタンパク質の価値に影響を与えるかどうかを,t分布を用いて検定せよ.
問題の出典:
「初等統計学」(培風館/P.G.ホーエル著/浅井晃.村上正康共訳)第4版31刷p.188,6節34. [ポイント] 20匹のネズミがたまたま10匹ずつに分かれただけであり「生のもの」と「炒ったもの」に対応があるわけではない.したがって,対応のないt検定を行う. (参考) 上記のデータをWeb画面上で生〜58までをドラッグ・コピーし,Excel上に単純に貼り付けると転記ミスなしに取り込むことができる.次に,Excel上でもう一度コピーし,貼り付け→行列を入れ替える ・・・・・・(1) (Excel2002の場合は,編集→形式を選択して貼り付け→行列を入れ替える) ■Excel上でのt検定 ◇◇初めにF検定を行う◇◇ まず分散が等しいと見なせるかどうかについてF検定を行う.(次のいずれか1つの方法による.)
○各々の不偏分散を求める =VAR(A2:A11)→31.21 =VAR(B2:B11)→21.07 ○分散比(大きい方÷小さい方)を求める =31.21/21.07=1.48 [関数] FINV(確率0.05,自由度1,自由度2)によって有意と見なせる境界値のF値が返されるのでこれよりも大きければ有意差あり,小さければ有意差なしと判断する. FDIST(F値,自由度1,自由度2)によって分散が等しいと仮定したときにその分散比が起こる確率が返されるので,これが0.05よりも小さければ分散が等しいという帰無仮説が棄却される. FTEST(データ1の範囲,データ2の範囲)によって2つのデータの分散が等しいと仮定したときにその分散比となる両側確率が返されるので(大きい方しか使わないので),これを2で割って上側確率が0.05よりも小さくなるかどうかを調べる.
[関数] TTEST(データ1の範囲, データ2の範囲, 両側検定の場合は第3引数2とする, 等分散を仮定できるときは第4引数を2とする)によって平均値が等しいと仮定したときにそのt分布となる確率が返されるので,確率が0.05よりも小さければ有意差あり,大きければ有意差なしと判断する.
|
■Rコマンダーでのt検定 ○ そのままのデータでは「対応のない場合のt検定」が選択できないので,右図のようにExcel上で1列に加工する(分類名A,Bで区別する.Aが生,Bが炒ったものに対応)・・・(2) Excel上で(2)の範囲を変転表示にし,コピーし(メモリ=クリップボードに入れる.) ○ Rコマンダーのメニューで データ→データのインポート→テキストファイルまたはクリップボード,URLから データセット名を入力(→例えばxとする) ファイル内に変数名あり(右図の摂取量,分類を含めてコピーしているのならチェックありのまま) データファイルの場所(→クリップボード) フィールドの区切り記号(→タブ) →OK [データセットを表示]で右図下のように表示されればよい. ○ここからがRコマンダーを用いたt検定 ◇◇初めにF検定を行う◇◇ 統計量→分散→分散の比のF検定 →(次の図のように選ぶ) 出力ウインドウに次にように出力される.
◇◇F検定の結果を用いてtF検定を行う◇◇ 統計量→平均→独立サンプルt検定→(次の図のように選ぶ) 出力ウインドウに次にように出力される.
|
【例6】 あるダイエット法が体重の減量に効果があるかどうかを調べる実験に,10人の女性が参加した.この療法に入る前と,2ヶ月間試みた後の体重(kg)を測定して次の結果を得た.
問題の出典:「統計学演習」(培風館/村上正康.安田正實共著)初版第18刷 p.123,例題6
このWeb画面からデータをExcelに移す方法は前の項参照 [ポイント] ※個体番号ごとに前後のデータが同一人物のデータを表しているから「対応のある場合」とする. ※対応のある場合のt検定では標本の個数がそろっていなければならない. ※対応のある場合のt検定では,分散が等しいかどうかは問題にならない. ※両側検定にするか片側検定にするかは,標本から得られる情報ではなく分析者の関心によって決めなければならないとされている.ここでは「減量に効果があるか」に関心があるのだから, 帰無仮説 H0:平均の差が0 対立仮説 H1:前の平均>後の平均 とする片側検定を行う. ■Excel上でのt検定 [関数] TTEST(データ1の範囲, データ2の範囲, 片側検定の場合は第3引数1とする, 対応のあるデータでは第4引数を1とする)によって平均値が等しいと仮定したときにそのt分布となる確率が返されるので,確率が0.05よりも小さければ有意差あり,大きければ有意差なしと判断する.
|
■Rコマンダーでのt検定 ○Rコマンダーで使うデータは,左の問題の行列を入れ替えたもの(3列11行)の形でよい. 左の問題文のデータをWeb画面上で女〜66.0までをドラッグ・コピーし,Excel上に単純に貼り付けると転記ミスなしに取り込むことができる.次に,Excel上でもう一度コピーし,貼り付け→行列を入れ替える ・・・・・・(1) Excel上で(1)の範囲を変転表示にし,コピーし(メモリ=クリップボードに入れる.) ○ Rコマンダーのメニューで データ→データのインポート→テキストファイルまたはクリップボード,URLから データセット名を入力(→例えばyとする) ファイル内に変数名あり(女性,前,後を含めてコピーしているのならチェックありのまま) データファイルの場所(→クリップボード) フィールドの区切り記号(→タブ) →OK [データセットを表示]で確かめる方がよい. ○ここからがRコマンダーを用いたt検定 統計量→平均→対応のあるt検定 →(右図のように選ぶ) 出力ウインドウに次にように出力される.
以上により効果があるといえる. |