■度数分布表から平均値,分散,標準偏差を求める(Excelの利用) ○[平均値x] n個のデータx1 , x2 , x3 , ..., xnの平均値xは,値の合計T=x1+x2+x3+...+xnを,個数の合計nで割ったものとして定義されます. x=(x1+x2+x3+...+xn ) ※[度数分布表から平均値を求めるには]
m1= にf1個のデータがあるとみなせます. 同様にして,x2以上x3未満の階級にf2個のデータがあるのだから,この区間の中央 m2= にf2個のデータがあるとみなせます. この結果,平均値は次の式で求められます. x=(m1+m1+...m2+m2+...+... ) f1個f2個 したがって
x=(m1 f1+m2 f2+... ) …(1)
(ただしf1+f2+...=n)
【例】
となります. |
※[仮平均を使った簡便計算法によって平均値を求めるには]
今日では,平均値,分散,標準偏差はコンピュータを使って求めることが多く,左記の(1)によって直接求めると簡単に求まります.だから,コンピュータで処理する場合には,以下で述べる簡便計算法は必要ありません.
(やり方)ここで解説する仮平均を使った簡便計算法は,筆算で1桁程度の数値の掛け算や足し算で求めたい場合に適しています. 度数分布表の中央付近で,度数の最も大きい階級(表2では,赤で示した42.5)の階級値を0として,増える方向に1, 2, ..,減る方向に−1, −2, ..という階級値を仮変数として割り当てます. この仮変数uを階級値の代わりに使って平均値を求めると, u=((−2)×3+(−1)×5+0×7+...)=−0.25
度数の最も大きい階級の階級値としての仮変数を0にすることの長所は,大きな度数でも0を掛けることになって,計算が省略できるからです.(上記の計算中の0×7)
このようにして仮変数で求めた平均値uは,そのままでは本来求めるべき平均値とは異なっていますが,次のように元の変数に戻すことができます.度数分布表の中央付近で,仮変数0にすると大きい方も小さい方も±2のように小さな整数値になって,計算が楽になるからです.先頭を0から始めて(仮平均を他の値に設定しても,例えば32.5としても)も正しく求めることはできますが,階級値の仮変数として,0,1,2,3,4などとすると数字が大きくなる分だけ不利です. u= ⇔ x=42.5+5u したがって x=42.5+5 u=42.5+5×(−0.25)=41.25
一般に,階級幅cの度数分布表において,仮平均をx0として仮変数uを導入するとき,元の変数xを用いた計算が複雑な小数計算であっても,uを用いた計算は,階級幅1の簡単な整数値の計算でできます.
このとき,uからxへは次の式で戻すことができます. x=x0+cu …(*1) 標準偏差s:suは,階級幅c:1に比例します. s=csu …(*2) 分散は標準偏差の2乗です. V=s2=c2su2 …(*3)
※変数変換に伴う平均値,分散,標準偏差の変換の詳細は,この頁
|
[分散Vまたはs2,標準偏差s] 分散は,平均値からの偏差xi−xの2乗の平均として定義されます. V={ (x1−x)2+(x2−x)2+... } 標準偏差は,上記の分散の正の平方根として定義されます. s= ※[度数分布表から分散を求めるには] 右の表1のようにデータが度数分布表で与えられている場合には,この場合も(m1−x)2がf1個,(m2−x)2がf2個,...と考えると
V={ (m1−x)2 f1+(m2−x)2 f2+ ...... } …(3)
この分散は V=(m12 f1+m22 f2 ... )−x2 …(4) すなわち (分散)=(2乗の平均)−(平均の2乗) と書き直すことができます.
(3)と(4)のどちらを使えばよいのか?
今日では,統計処理をコンピュータで行うことが多いので,(3)でやれば十分です.(4)式は小数計算の計算量をなるべく少なくしたいときに(例えば,筆算で行うときなどに)適していますので,(4)でやらなければならないということはありません. ただし,コンピュータで計算する場合でも,計算式の範囲指定がズレてしまうなどのうっかりミスを防ぐためには,2種類以上の計算方法で求めて,それらが一致するかどうか確かめるようにする方がよく,2通りの方法で計算して突き合わせることには意義があります.
【例】
(3)→ 右の表3の場合 ○ =SUM(D2:D8) により,データの個数n=970が求まります.(これをセルD9に書きこむものとする.7.74) ○ 平均値は,(階級値)×(度数)の和をデータの個数で割って求めます.
階級値×度数は,例えばセルE2に =C2*D2 として,これを下方にコピー&貼り付けしてもできますが,=SUMPRODUCT()を使う方法があります.
○ (3)式による分散は,例えばセルC9に上記の平均値を記入している場合,まずE列に偏差を準備しておくことから始める.=SUMPRODUCT()は数学の内積に相当します. =SUMPRODUCT(C2:C8,D2:D8)/[データの個数]により,平均値が求まります.
セルE2に =C2−$C$9 ←C9の方は絶対参照にします
(3)式を計算するためには,各々の偏差の2乗×度数を求めから,それらの和を計算してもよいが,ワークシート関数 SUMPRODUCT()を利用するとよい.これをコピーして,E3からE8に貼り付け たとえば,セルE3には =C3−$C$9 という式が貼り付けられる. 右図1,2の要領でE列,E列,D列の積の和を求めるとよいから =SUMPRODUCT(E2:E8, E2:E8, D2:D8) これをセルD9に計算してあるデータの個数で割ると分散になります. =SUMPRODUCT(E2:E8, E2:E8, D2:D8)/D9 →0.0468
(4)→
○ =SUMPRODUCT(C2:C8, C2:C8, D2:D8)/D9-C9^2により(2乗の平均)−(平均の2乗)が求められます. →0.0468
(3)(4)の2つの方法で求めた分散が一致するのでこれを使用する.
○ 標準偏差は =SQRT(分散)にyり求めます. →0.21 ※Excelで計算すると,平均値,分散,標準偏差などは,セル幅が広ければ小数第7位,8位などと表示されますが,どこまで使えばよいのか. →2,3個の数値の和差積商では,元の数の有効数字に合わせます([例」3桁×3桁なら3桁で答える),が多数のデータ(例えば10件以上)から平均値,分散,標準偏差を求めるときは,概ね次のように処理されていることが多いようです.(途中経過はコンピュータまかせにして(特に丸めることはせずに),結果の桁数だけを丸める.)
* 平均値の有効数字は,元の観測値よりも1桁増やす.
* 標準偏差の有効数字は平均値の有効数字に合わせる. * 分散の有効数字は標準偏差の2倍にする.(ルートが標準偏差の桁数になるようにする) [例] 階級値:3.02, 2.98, 3.50, ... (数十件あるとする)→小数第2位まで ⇒ 平均値:3.243 ←小数第3位まで ⇒ 分散:0.178929←小数第6位まで ↑ 標準偏差:0.423←小数第3位まで |
V={ (m1−x)2 f1+(m2−x)2 f2+ ...... } ={ (m12 −2m1x+x2 )f1 +(m22 −2m2x+x2 )f2 + ...... } =(m12 f1+m22 f2+ ... ) −(m1f1+m2f2+ ... ) x +(f1+f2+ ... ) x2 ここで (m1 f1+m2 f2+... )=x,f1+f2+...=n だから V=(m12 f1+m22 f2+ ... )−2x2+x2 =(m12 f1+m22 f2+ ... )−x2
図1
=SUMPRODUCT(A1:C1, A2:C2)は行ベクトルと行ベクトルの内積 −2*3+5*1+6*(−2)=−13 =SUMPRODUCT(B1:B4, C1:C4)は列ベクトルと列ベクトルの内積 5*6+1*(−2)+(−2)*1+3*2=32
図2
※「行の配列」と「列の配列」の積の和は,=SUMPRODUCT()ではなく,行列の積 =MMULT()で求めます.
数学では,3つのベクトルの内積?などは聞かないが,コンピュータでは「3つの配列の積の和」「4つの配列の積の和」でも自由にできます. 上記の表4において =SUMPRODUCT(A1:C1, A2:C2, A3:C3)とすれば −2*3*1+5*1*(−2)+6*(−2)*1=−28 |
右の表5は,1951年から2012年までの62年間に,日本に上陸した台風の1年間の上陸数とその度数一覧です.(例えば,赤で示した数字は,1年間に3個上陸した年が18年あることを示しています.)
正しい番号を選択してください.
n=62だから,上陸数×度数のSUMPRODUCT()を求めて,これをn=62で割れば求まります. →2
上記の(3)(4)の2通りで求めて,一致すればまず間違いありません. →4
分散を求めてから =SQRT(分散の値)で求まります. →1
|
表5
元のデータは,気象庁 台風の上陸数http://www.data.jma.go.jp/fcd/yoho/ typhoon/statistics/landing/landing.html 平たく言えば,1年間に日本に台風が上陸した回数のことですが,おそらく1つの台風が2回以上上陸している場合もあるので,1年間に日本に上陸した台風の個数ということになる. この表は,気象庁のデータから度数分布表を作成したもの. 画面上でドラッグ・コピーしてExcel上に単純に貼り付けるて利用すればよい. |
右の表6はある日1日に釣り上げられた魚の重さ別一覧だとします.(架空データ) このデータについて,以下の問いに答えてください. まず,階級値を1.05, 1.15, 1.25, ... などとし,その階級値と度数を用いて平均値を求めます. →5
上記の(3)(4)の2通りで求めて,一致すればまず間違いありません. →2
分散の値を求めてから,=SQRT()を使います.
→1
|
表6
|
右の表7は生徒20人の身長を集計したものとします.(架空データ) この度数分布表から,仮平均を用いた簡便計算法により平均値,分散,標準偏差を求めるとき,次の問いに答えてください. 仮変数u=0に対応する階級値x0=162.5が仮平均です. →4
{ (−2)*3+(−1)*5+0*7+1*4+2*1 }/20={ −5 }/20=−0.25 →1
uについて分散を(2乗の平均)ー(平均の2乗)で計算すると
(4*3+1*5+0*7+1*4+4*1)/20−(−0.25)2=1.25−0.0625=1.1875 その正の平行根を求めると,標準偏差は1.0897..≒1.09 →1
[問題10]
生徒の身長の平均値と標準偏差は各々いくらになりますか. 1平均−0.25,標準偏差1.1875 2平均−0.25,標準偏差1.09 3平均−0.25,標準偏差5.45 4平均161.25,標準偏差29.6875 5平均161.25,標準偏差5.45 HELP
x=x0+cuにより
x=162.5+5*(−0.25)=161.25 s=csuにより s=5*1.09=5.45 →5
|
表7
|