.
== 期待値,変動,分散,標準偏差 ==(離散的な分布の場合)
◎ 平均値,期待値 【数学の公式 】
○ n 個の変数の和を nで割ったものを平均値(または期待値)という.
 平均値m (mean value), E(X) (expectation), などで表わされる.

.m=E(X)= = =xk

※ 平均値には,相加平均,相乗平均,調和平均,2乗平均など様々な種類があり,目的によって使い分けられる.ここで扱っているのは相加平均で,単に平均値といえば相加平均を指す.

【 簡単な例 】

5個の整数 20,30,40,50,60 の平均値は

m = = 40 となる.

名前 得点(x)
織田元就 1
足利意次 2
北条尊氏 3
石田道長 4
今川時宗 5

上のにおいて,5人の得点(x)の平均値 mを求めると,

m = = 3

【 Excelで計算するには 】
右のデータについて
○ 平均値を求めるには:
(1)  =AVERAGE(B2:B11) では
セルの内容 分子の
合計計算
分母の
個数
数値
10
入る 入る
文字
× ×
空白
× ×
===> 文字が入力されたNo.3と空白のNo.8は個数に含めず,個数は8個と数えているので,80/8=10となる.

(2) =AVERAGEA(B2:B11) では
セルの内容 分子の
合計計算
分母の
個数
数値
10
入る 入る
文字
0として入る 入る
空白
× ×
===> 数値のセル以外に文字が入力されたNo.3を数え,空白セルNo.8は数えないので,個数は9個とし,合計計算では文字の部分を0とみなすので,80/9=8.8889・・となる.
  A B
1 製品番号 測定値
2 No.1 10
3 No.2 10
4 No.3
5 No.4 10
6 No.5 10
7 No.6 10
8 No.7 10
9 No.8  
10 No.9 10
11 No.10 10
○ データの個数を数えるには:
(1) =COUNT(B2:B11) では
セルの内容 分子の
合計計算
分母の
個数
数値
10
入る 入る
文字
× ×
空白
× ×
===> 文字が入力されたNo.3と空白のNo.8は個数に含めないので =COUNT(B2:B11) は 8 となる.

(2) =COUNTA(B2:B11) では
セルの内容 分子の
合計計算
分母の
個数
数値
10
入る 入る
文字
入る 入る
空白
× ×
===> 数値のセル以外に文字が入力されたNo.3を数え,空白セルNo.8は数えないので,=COUNTA(B2:B11)は9となる.
  A B
1 製品番号 測定値
2 No.1 10
3 No.2 10
4 No.3
5 No.4 10
6 No.5 10
7 No.6 10
8 No.7 10
9 No.8  
10 No.9 10
11 No.10 10

※ 数値の和を求めるには =SUM(B2:B11) で 80 となる.
関数SUM()は,「文字」「空白」は0とみなす.

(1)
上に述べた =AVERAGE(B2:B11) は=SUM(B2:B11)/COUNT(B2:B11) に等しい.

(2)
上に述べた =AVERAGEA(B2:B11) は=SUM(B2:B11)/COUNTA(B2:B11) に等しい.

◎ 度数分布表,確率分布表から平均値(期待値)を求めるには
【数学の公式 】

○ 平均値(または期待値)を度数分布表 ( 階級の個数=n,階級値=xk,度数=fk ( k = 1, 2, … , n ),総度数=N ) から求めるとき

. m= E(X) = = = xkfk


 相対度数分布表または確率分布表 ( 階級の個数=n,階級値=xk,確率=pk ( k = 1, 2, … , n ) ) から求めるとき

=pk ( k = 1, 2, … , n )

だから上の公式は次の形に書ける.

m=E(X)==x1p1+x2p2+…+xnpn=xkpk
 n 個の階級に分かれていて,各々の階級値が x1x2,…,xn,度数が f1f2,…,fn,合計 N 個のとき,

階級値x 度数f xf
x1 f1 x1f1
x2 f2 x2f2
x3 f3 x3f3
x4 f4 x4f4
x5 f5 x5f5
N 総和



階級値x 確率p xp
x1 p1 x1p1
x2 p2 x2p2
x3 p3 x3p3
x4 p4 x4p4
x5 p5 x5p5
1 平均値

 1つのさいころを1回投げたとき, 次のような確率分布となり,期待値は3.5となる.
確率変数x 確率p xp
1 0.1667 0.1667
2 0.1667 0.3333
3 0.1667 0.5000
4 0.1667 0.6667
5 0.1667 0.8333
6 0.1667 1.0000
1 3.5
.
【 Excelで計算するには 】
 右のような度数分布表から平均値を求めるには,右に計算用の欄を追加し, xf を計算し,縦の総和を個数で割るとよい.
 D2 に =B2*C2
 この式をコピーし,D6まで貼り付ける.
 D7 に  =SUM(D2:D6)
平均は =D7/C7 で153.947 となる.

※ 2つずつの積の和 x1f1 + x2f2 +・・・+ xnfn の形の計算は統計処理によく使われ,Excel関数
  =SUMPRODUCT(配列1の範囲, 配列2の範囲)
で求めることができる.これはベクトルの内積に等しい.
 右の例では =SUMPRODUCT(B2:B6,C2:C6)は5850となり,これを個数38で割れば平均値(期待値)となる.
  A B C D
1 階級 階級値x 度数f xf
2 130-140 135.0 3 405
3 140-150 145.0 11 1595
4 150-160 155.0 13 2015
5 160-170 165.0 9 1485
6 170-180 175.0 2 350
7 総計   38 5850
◎ 分散,標準偏差
【数学の公式 】
○ 分散
.V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 } = ( xk - m)2
   度数分布表 ( 階級の個数=n,階級値=xk,度数=fk ( k = 1, 2, … , n ),総度数=N ) から求めるとき

. V(X) = = { ( x1 - m)2f1 + ( x2 - m)2f2 + … +( xn - m)2fn } = ( xk - m)2fk

   相対度数分布表または確率分布表 ( 階級の個数=n,階級値=xk,確率=pk ( k = 1, 2, … , n ) ) から求めるとき

. V(X) = { ( x1 - m)2p1 + ( x2 - m)2p2 + … +( xn - m)2pn } = ( xk - m)2pk

○ 標準偏差  上記いずれの場合も
.σ(X)=

○ なお,分散および標準偏差は,次の式で求めることができる.
. V(X) = E(X2)−E(X)2
.σ(X)=
.
【解説 】
○ 平均値が等しくても「散らばり具合」が異なることがある.次の図でBはAよりも散らばり具合が大きく,DはCよりも散らばり具合が大きい.このような散らばりを数値で表わしたい.

 散らばりを表わすためによく使われるものに,分散 (variance) と 標準偏差(standard deviation )がある.
○ n 個の変数 x1x2,…,xn については
 分散
V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 }


○ n 個の階級に分かれていて,各々の階級値が x1x2,…,xn,度数が f1f2,…,fn,合計 N 個のとき,

 分散
V(X)={ (x1m)2f1+(x2m)2f2+…+(xnm)2fn }

 右辺を相対度数 ( または確率 ) pk = ( k = 1, 2, … , n )を用いて表わすと,
V(X) = ( x1 - m)2p1 + ( x2 - m)2p2 + … +( xn - m)2pn

○ 上記いずれの場合も標準偏差
σ(X) =
* 次の例において平均値との隔たり xk-m の平均を考えても,正負で打ち消し合って

= 0 となり,使えない.

 また,平均値との隔たりの絶対値 |xk-m| の平均(平均偏差)が考えられるが,絶対値記号の付いた式は変形しにくく,使いづらいものとなる.



 そこで,平均値との隔たりの2乗の平均を考え,これを分散という.
 分散は元の変数の2乗を使っているので,元の変数が cm のとき,分散の単位は cm2 となり,単位が合わないので,そのルートをとった標準偏差がよく用いられる.  
○ (分散)=(x2の期待値) - (xの期待値)2 の解説

V(X) = { ( x1 - m)2 + ( x2 - m)2 + … +( xn - m)2 } = { ( x12 - 2mx1 + m2) + ( x22 - 2mx2 + m2) + … + ( xn2 - 2mxn + m2)}

= ( x12 + x22 + … + xn2 ) - (x1 + x2 + … + xn) + m2n = ( x12 + x22 + … + xn2 ) - 2m2 + m2

= ( x12 + x22 + … + xn2 ) - m2 = E(X2) - E(X)2

度数分布表で与えられる場合も同様
標準偏差は分散の正の平方根

【 簡単な例 】
右のにおいて,5人の得点(x)の平均 mと標準偏差 σ(X) を求めると,
m= = 3

V(X) = { (1 - m)2 + (2 - m)2 + (3 - m)2 + (4 - m)2 + (5 - m)2 }

= { (1 - 3)2 + (2 - 3)2 + (3 - 3)2 + (4 - 3)2 + (5 - 3)2 }

= { 4 + 1 + 0 + 1 + 4 }

= 2
σ(X)= = 1.41
名前 得点(x)
織田元就 1
足利意次 2
北条尊氏 3
石田道長 4
今川時宗 5
右の例4の度数分布表において,10個のデータの平均 mと標準偏差 σ(X) を求めると,
(右欄に途中計算が書けるようにしておく)

m= = 25
V(X)={(5−m)2・1+(15−m)2・2+(25−m)2・4+(35−m)2・2+(45−m)2・1}
= { (5−25)21+(15−25)22+(25−25)24+(35−25)22+(45−25)21 }
= { 400+200+0+200+400 } = 120
σ(X)= = 10.96
例4
階級 階級値(x) 度数(f) xf (x-m)^2
0−10 5 1 5 400
10−20 15 2 30 100
20−30 25 4 100 0
30−40 35 2 70 100
40−50 45 1 45 400
.
【 Excelで計算するには 】
○ 右の表の10個の測定値で,
  上の
{ ( x1m)2+( x2m)2 +… +( xnm)2 }

= ( xkm)2


に対応する分散=VARP(B2:B11) で,2となる.

 標準偏差σ(X)は =STDEVP(B2:B11)で,1.4142となる.(分散のルート)

  A B C
1 製品番号 測定値 xk-m
2 No.1 1 -2
3 No.2 2 -1
4 No.3 3 0
5 No.4 4 1
6 No.5 5 2
7 No.6 5 2
8 No.7 4 1
9 No.8 3 0
10 No.9 2 -1
11 No.10 1 -2
◎ 母集団の分散,標準偏差の推定値
.
【数学の公式 】

 標本の分布から推定される母集団の分散,母集団の標準偏差は,標本の分散や標本の標準偏差と異なり,
{ ( x1m)2+( x2m)2 +… +( xnm)2 }

及び,そのルートとなる.



※ 「標本分布から推定される母集団の分散」のことを不偏分散という.これがVAR()で,Excel関数のヘルプでは「標本に基づく分散の予測値」と表示されるが,これは標本の分散ではない.

 これに対して,標本自身の分散はVARP()で,Excel関数のヘルプでは「
母集団全体に基づく分散」と表示されるが,これは母分散ではない.

 このヘルプは先頭の文字を見出し代わりに読むと逆の意味になるので,要注意のようです.

【要約】VAR()は推定値としての不偏分散,VARP()標本の分散
【 Excelで計算するには 】
○ 右の表において測定値か母集団の分散の推定値(不偏分散)を求めるには
 =VAR(B2:B11) とする.
(不偏分散VAR() = 2.22は分散VARP() = 2.0よりも少し大きくなる..)

○ 母集団の標準偏差の推定値を求めるには
 =STDEV(B2:B11) とする.
(母集団の標準偏差の推定値STDEV() = 1.49は,標準偏差STDEVP() = 1.414よりも少し大きくなる.)

○ 多変量解析でしばしば登場する「変動」は,
( x1m)2+( x2m)2 +… +( xnm)2
で,右の表のように各値から平均値を引いたものを作っておき,それらの2乗和をとればよい.
C2に = B2-AVERAGE(B$2:B$11)
これをC11までコピー・貼り付け

「変動」は2乗和を求める関数SUMSQ()で求められる.
=SUMSQ(C2:C11)
C列自身の内積でも同様.=SUMPRODUCT(C2:C11, C2:C11)
もちろん,D列に =C2^2を求めておいてから,これらの列和を求めてもよい.

※ (不偏分散)=(変動)/(標本数 -1)となっている.
また,(分散)=(変動)/(標本数)となっている.
  A B C
1 製品番号 測定値 xk-m
2 No.1 1 -2
3 No.2 2 -1
4 No.3 3 0
5 No.4 4 1
6 No.5 5 2
7 No.6 5 2
8 No.7 4 1
9 No.8 3 0
10 No.9 2 -1
11 No.10 1 -2
.
■問題と答
※ データは,画面上で「ドラッグ」→「コピー」し,Excel上で「貼り付け」すれば取り込むことができます.

(1)
 右の表Aの身長 (架空データ.源清盛が欠席のままで計算したい.) の平均値,分散,標準偏差を求めると
 [ 計算:見る | 隠す ]




(2)
 表Bで平均値,分散,標準偏差を求めると
 [ 計算:見る | 隠す ]

(3)
 表Cの資料(架空データ)から身長,体重の不偏分散を求めると
 [ 計算:見る | 隠す ]
表A 
名前 身長
明智家康 173.1
足利意次 143.6
足利秀吉 168.2
石田道長 157.6
今川時宗 148.7
上杉義元 169.5
織田元就 172.3
楠木宗全 168.0
平長政 165.9
武田三成 150.7
田沼謙信 163.4
長宗我部信長 175.5
徳川元親 158.4
豊臣道三 151.1
藤原頼朝 155.6
北条尊氏 151.4
源清盛 欠席
毛利光秀 151.8
山名義満 165.8
浅井信玄 147.8
表B  
階級 階級値 度数
130-140 135.0 3
140-150 145.0 11
150-160 155.0 13
160-170 165.0 9
170-180 175.0 2
総計   38

表C
学生番号 身長 体重
No.1 173.1 66.5
No.2 143.6 67.7
No.3 168.2 69.1
No.4 157.6 69
No.5 148.7 56.4
No.6 169.5 66.8
No.7 172.3 56.7
No.8 168.0 69.5
No.9 165.9 69.5
No.10 150.7 64.1
No.11 163.4 66.1
No.12 175.5 67.2
No.13 158.4 65.6
No.14 151.1 63.4
No.15 155.6 67.8
確率統計のメニューに戻る 高校数学のメニューに戻る
■[個別の頁からの質問に対する回答][期待値について/16.12.18]
式の導出が詳しくて分かりやすかった
=>[作者]:連絡ありがとう.
■[個別の頁からの質問に対する回答][期待値,標準偏差について/16.12.6]
右の例4の度数分布表において,10個のデータの平均 mと標準偏差 σ(X) を求めると,(右欄に途中計算が書けるようにしておく) m=(5+30+100+70+45)/5 = 25 とありますが、分母は10ではないでしょうか。
=>[作者]:連絡ありがとう.訂正しました・・・その後の計算結果には影響しません.