== 期待値,変動,分散,標準偏差 ==(離散的な分布の場合) ◎ 平均値,期待値 【数学の公式 】 ○ n 個の変数の和を nで割ったものを平均値(または期待値)という. 平均値は m (mean value), E(X) (expectation), などで表わされる. m=E(X)= = =xk ※ 平均値には,相加平均,相乗平均,調和平均,2乗平均など様々な種類があり,目的によって使い分けられる.ここで扱っているのは相加平均で,単に平均値といえば相加平均を指す. |
【 簡単な例 】 例 5個の整数 20,30,40,50,60 の平均値は m = = 40 となる. |
例
上の例において,5人の得点(x)の平均値 mを求めると, m = = 3 |
【 Excelで計算するには 】 右のデータについて ○ 平均値を求めるには: (1) =AVERAGE(B2:B11) では
(2) =AVERAGEA(B2:B11) では
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
○ データの個数を数えるには: (1) =COUNT(B2:B11) では
(2) =COUNTA(B2:B11) では
|
※ 数値の和を求めるには =SUM(B2:B11) で 80 となる. |
◎ 度数分布表,確率分布表から平均値(期待値)を求めるには |
【数学の公式 】 ○ 平均値(または期待値)を度数分布表 ( 階級の個数=n,階級値=xk,度数=fk ( k = 1, 2, … , n ),総度数=N ) から求めるとき m= E(X) = = = xkfk 相対度数分布表または確率分布表 ( 階級の個数=n,階級値=xk,確率=pk ( k = 1, 2, … , n ) ) から求めるとき =pk ( k = 1, 2, … , n ) だから上の公式は次の形に書ける. m=E(X)==x1p1+x2p2+…+xnpn=xkpk |
n 個の階級に分かれていて,各々の階級値が x1,x2,…,xn,度数が f1,f2,…,fn,合計 N 個のとき,
例 1つのさいころを1回投げたとき, 次のような確率分布となり,期待値は3.5となる.
|
【 Excelで計算するには 】 右のような度数分布表から平均値を求めるには,右に計算用の欄を追加し, xf を計算し,縦の総和を個数で割るとよい. D2 に =B2*C2 この式をコピーし,D6まで貼り付ける. D7 に =SUM(D2:D6) 平均は =D7/C7 で153.947 となる. ※ 2つずつの積の和 x1f1 + x2f2 +・・・+ xnfn の形の計算は統計処理によく使われ,Excel関数 =SUMPRODUCT(配列1の範囲, 配列2の範囲) で求めることができる.これはベクトルの内積に等しい. 右の例では =SUMPRODUCT(B2:B6,C2:C6)は5850となり,これを個数38で割れば平均値(期待値)となる. |
|
◎ 分散,標準偏差 |
【数学の公式 】 ○ 分散 V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 } = ( xk - m)2 度数分布表 ( 階級の個数=n,階級値=xk,度数=fk ( k = 1, 2, … , n ),総度数=N ) から求めるとき V(X) = = { ( x1 - m)2f1 + ( x2 - m)2f2 + … +( xn - m)2fn } = ( xk - m)2fk 相対度数分布表または確率分布表 ( 階級の個数=n,階級値=xk,確率=pk ( k = 1, 2, … , n ) ) から求めるとき V(X) = { ( x1 - m)2p1 + ( x2 - m)2p2 + … +( xn - m)2pn } = ( xk - m)2pk ○ 標準偏差 上記いずれの場合も σ(X)= ○ なお,分散および標準偏差は,次の式で求めることができる. V(X) = E(X2)−E(X)2 σ(X)= |
【解説 】 ○ 平均値が等しくても「散らばり具合」が異なることがある.次の図でBはAよりも散らばり具合が大きく,DはCよりも散らばり具合が大きい.このような散らばりを数値で表わしたい. 散らばりを表わすためによく使われるものに,分散 (variance) と 標準偏差(standard deviation )がある. ○ n 個の変数 x1,x2,…,xn については 分散 V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 } ○ n 個の階級に分かれていて,各々の階級値が x1,x2,…,xn,度数が f1,f2,…,fn,合計 N 個のとき, 分散 V(X)={ (x1−m)2f1+(x2−m)2f2+…+(xn−m)2fn } 右辺を相対度数 ( または確率 ) pk = ( k = 1, 2, … , n )を用いて表わすと, V(X) = ( x1 - m)2p1 + ( x2 - m)2p2 + … +( xn - m)2pn ○ 上記いずれの場合も標準偏差 σ(X) = |
* 次の例において平均値との隔たり xk-m の平均を考えても,正負で打ち消し合って = 0 となり,使えない. また,平均値との隔たりの絶対値 |xk-m| の平均(平均偏差)が考えられるが,絶対値記号の付いた式は変形しにくく,使いづらいものとなる. そこで,平均値との隔たりの2乗の平均を考え,これを分散という. 分散は元の変数の2乗を使っているので,元の変数が cm のとき,分散の単位は cm2 となり,単位が合わないので,そのルートをとった標準偏差がよく用いられる. |
○ (分散)=(x2の期待値) - (xの期待値)2 の解説 V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 } = { ( x12 - 2mx1 + m2) + ( x22 - 2mx2 + m2) + … + ( xn2 - 2mxn + m2)} = ( x12 + x22 + … + xn2 ) - (x1 + x2 + … + xn) + m2n = ( x12 + x22 + … + xn2 ) - 2m2 + m2 = ( x12 + x22 + … + xn2 ) - m2 = E(X2) - E(X)2 度数分布表で与えられる場合も同様 標準偏差は分散の正の平方根 |
【 簡単な例 】 右の例において,5人の得点(x)の平均 mと標準偏差 σ(X) を求めると, m= = 3 V(X) = { (1 - m)2 + (2 - m)2 + (3 - m)2 + (4 - m)2 + (5 - m)2 } = { (1 - 3)2 + (2 - 3)2 + (3 - 3)2 + (4 - 3)2 + (5 - 3)2 } = { 4 + 1 + 0 + 1 + 4 } = 2 σ(X)= = 1.41 |
例
|
||||||||||||||||||||||||||||||
右の例4の度数分布表において,10個のデータの平均 mと標準偏差 σ(X) を求めると, (右欄に途中計算が書けるようにしておく) m= = 25 V(X)={(5−m)2・1+(15−m)2・2+(25−m)2・4+(35−m)2・2+(45−m)2・1} = { (5−25)2・1+(15−25)2・2+(25−25)2・4+(35−25)2・2+(45−25)2・1 } = { 400+200+0+200+400 } = 120 σ(X)= = 10.96 |
例4
|
【 Excelで計算するには 】 ○ 右の表の10個の測定値で, 上の { ( x1−m)2+( x2−m)2 +… +( xn−m)2 } = ( xk−m)2 に対応する分散は =VARP(B2:B11) で,2となる. 標準偏差σ(X)は =STDEVP(B2:B11)で,1.4142となる.(分散のルート) |
|
◎ 母集団の分散,標準偏差の推定値 |
【数学の公式 】 標本の分布から推定される母集団の分散,母集団の標準偏差は,標本の分散や標本の標準偏差と異なり, { ( x1−m)2+( x2−m)2 +… +( xn−m)2 } 及び,そのルートとなる. |
※ 「標本分布から推定される母集団の分散」のことを不偏分散という.これがVAR()で,Excel関数のヘルプでは「標本に基づく分散の予測値」と表示されるが,これは標本の分散ではない. これに対して,標本自身の分散はVARP()で,Excel関数のヘルプでは「母集団全体に基づく分散」と表示されるが,これは母分散ではない. このヘルプは先頭の文字を見出し代わりに読むと逆の意味になるので,要注意のようです. 【要約】VAR()は推定値としての不偏分散,VARP()標本の分散 |
||||||||||||||||||||||||||||||||||||||||||||||||
【 Excelで計算するには 】 ○ 右の表において測定値か母集団の分散の推定値(不偏分散)を求めるには =VAR(B2:B11) とする. (不偏分散VAR() = 2.22は分散VARP() = 2.0よりも少し大きくなる..) ○ 母集団の標準偏差の推定値を求めるには =STDEV(B2:B11) とする. (母集団の標準偏差の推定値STDEV() = 1.49は,標準偏差STDEVP() = 1.414よりも少し大きくなる.) ○ 多変量解析でしばしば登場する「変動」は, ( x1−m)2+( x2−m)2 +… +( xn−m)2 で,右の表のように各値から平均値を引いたものを作っておき,それらの2乗和をとればよい. C2に = B2-AVERAGE(B$2:B$11) これをC11までコピー・貼り付け 「変動」は2乗和を求める関数SUMSQ()で求められる. =SUMSQ(C2:C11) C列自身の内積でも同様.=SUMPRODUCT(C2:C11, C2:C11) もちろん,D列に =C2^2を求めておいてから,これらの列和を求めてもよい. ※ (不偏分散)=(変動)/(標本数 -1)となっている. また,(分散)=(変動)/(標本数)となっている. |
|
※ データは,画面上で「ドラッグ」→「コピー」し,Excel上で「貼り付け」すれば取り込むことができます. (1) 右の表Aの身長 (架空データ.源清盛が欠席のままで計算したい.) の平均値,分散,標準偏差を求めると 平均 159.9 (AVERAGE()を用いる),
分散 91.8 (VARP()を用いる), 標準偏差 9.6 (STDEVP()を用いる) (2) 表Bで平均値,分散,標準偏差を求めると 表Cの資料(架空データ)から身長,体重の不偏分散を求めると 体重 17.10 |
|
表C
|
■[個別の頁からの質問に対する回答][期待値について/16.12.18]
式の導出が詳しくて分かりやすかった
■[個別の頁からの質問に対する回答][期待値,標準偏差について/16.12.6]
=>[作者]:連絡ありがとう. 右の例4の度数分布表において,10個のデータの平均 mと標準偏差 σ(X) を求めると,(右欄に途中計算が書けるようにしておく)
m=(5+30+100+70+45)/5 = 25
とありますが、分母は10ではないでしょうか。
=>[作者]:連絡ありがとう.訂正しました・・・その後の計算結果には影響しません. |