1. 代表値
資料の特徴を1つの数字で表すものを代表値という.代表値の中で最も重要なものは平均値で,他の代表値としては中央値,最頻値などがある.
英語で言えば,平均値(mean),中央値(medium),最頻値(mode)・・・全部mなのでMだけでは,どれか分からん ⇒ Me , Moなどと書く
(1.1) 平均値相加平均,算術平均は単に平均値もしくは平均と呼ばれ,ほとんどの統計で代表値として平均値が用いられる.
(1) n個の変数 の相加平均(算術平均)は
で定義される. (2) 資料が次のような度数分布表で与えられているとき,
|
1) (1)の定義は,「各々の資料の確率(加重)を等しく」「確率の総和を1」としたものになっている.
相加平均M1
2) 資料が次のような度数分布表で与えられているとき,相乗平均M0 調和平均M−1 2乗平均M2 ※一般に,M−1≦M0≦M1≦M2が成り立つ
元の資料を1つずつ足した場合と度数分布表から計算した場合とでは,理屈上は差異があるが,通常,その差異は無視できるものと見なす. 3) 平均値(算術平均)以外の代表値が使われる例として,「跳躍競技,投てき競技」で3回の試技のうちで最大値を代表値とする,「体操競技」で評価の最大値と最小値を除いた残りの平均値を代表値とすることなどがある. |
《仮平均,仮変数を用いた平均値の計算》 資料が表1のような度数分布表で与えられているとき,平均値の計算をコンピュータを使って行うときは,定義の通りに直接計算する方が間違いが少ないので,表2のように階級値×度数(xf)を求めて,その総和を度数の総和で割ればよい.
コンピュータが利用できない環境であったり,試験会場のように筆算だけで行う必要があるときは,表3のように仮平均と仮変数を使って,「整数の掛け算」「足し算」として仮の解答を求めてから,小数に戻す.
|
(1) 仮変数は−2, −1, 0, 1, 2, ...のように整数値を使う.
それでは,次の表4のように,階級値37.5を仮平均(x0→u=0)とおいて計算したら,間違いなのか?
(2) 仮変数(u)×度数(f)を階級値(x)×度数(f)の代わりに使うので,「真ん中付近で,度数(f)の大きい階級」を仮平均(x0→u=0)とすると計算が楽になる. この表では,階級値42.5を仮平均(x0→u=0)とおく.
度数の大きい階級を仮平均にすると,uf=0となって,計算が楽になる.
階級幅は5だから,階級値(x)と仮変数(u)とは,次の関係になる.真ん中付近に仮平均(u=0)となる階級を決めると,その前後は±1, ±2, ...となって,小さな整数の掛け算,足し算でできる. そこで,小さな整数値の計算の結果として, を求めておいてから, とすれば,平均値に戻ることができる.
仮変数を使った計算の結果として, を求めておいてから, とすると,前の結果と一致する. すなわち,仮平均を「真ん中付近で,度数(f)の大きい階級」とするというのは,計算量を減らすための工夫なので,仮平均の選択が少々ずれた場合,計算量が少し増えるということで,結果の正誤には影響しない. |
次の度数分布表で表される資料について,仮平均を使って平均値を求めてください. |
解答を見る
仮平均を22.5として,右のような表を作る. ・・・(答) |
(1.2) 中央値 資料を大きさの順に並べたとき,中央に来る値を中央値(メジアン)という. 中央値はMeで表される. (1) 中央値を具体的に求める方法
ア) 資料が奇数個nから成るときは,第 番目の資料の値が中央値になります.
【例】 資料が5個の値{ 1.3, 1.7, 2.3, 3.5, 4.1 }から成るとき,これらの中央値は第 番目の値 Me=2.3 である.
資料が偶数個n=2kから成るときは,第k番目と第k+1番目の値の平均値を中央値とする.
【例】 資料が6個の値{ 1.3, 1.7, 2.3, 3.5, 4.1, 4.3 }から成るとき,これらの中央値は第3番目と第4番目の平均値 である.Me=2.9
イ) 資料が度数分布表で与えられているとき,まず中央値が含まれる階級を考え,次にその階級の中で中央値の来るべき場所を按分(比例配分)で決めます.
まず,中央値は小さい方から第6位と第7位の間だから,20≦x<25の階級に入ります. 次に,その階級を5等分して 第6位が22.5,第7位が23.5だからその中間の値で Me=23.0 になります. |
(2) 中央値の長所 代表値として最もよく利用されるのは平均値ですが,平均値は「外れ値に対する抵抗性」が弱いという特徴があります.外れ値は極端値とも呼ばれ,他の資料とかけ離れた最大値や最小値となっているもののことです.
例えば,ある町内5人の年間所得が{ 210万円, 350万円, 400万円, 700万円, 1億5000万円 }の場合,年間所得の平均値は3332万円となり,1人の高額所得者がいるために,町内の他の誰の年間所得とも関係のない高い値になります.
ほとんどの統計資料で平均値が使われており,平均値を使わない統計資料は考えにくいが,年間所得のように平均値と中央値に大きな隔たりがある場合には,どちらか一方だけが正しいと考えるのでなく,参考資料として中央値も併記するのがよいとされている.(「心理統計学の基礎」南風原朝和著など)
これを中央値にすると400万円になり,その辺りに該当者がいます. 中央値は,町内5人の年間所得が{ 210万円, 350万円, 400万円, 700万円, 1500万円 }の場合でも変化しないので,「外れ値に対する抵抗性」があると言えます. |
(3) 中央値の数式的な特徴
資料がn個の値 から成るとき,代表値tと資料の各値との距離の総和
(解説)もしくは,平均偏差 が小さいほど全体の値の代表値としてふさわしいと考えると,これを満たす代表値tは中央値(メジアン)Meになります. 解説の都合上, は小さいものから順に並べ直したものに改めて名前をつけたものとする. S=|x1−t|のグラフは,右図茶色のグラフのように,x軸上のx=x1に折り目がある折れ線になる. 同様にして,S=|x2−t|のグラフは,右図薄茶色のグラフのように,x軸上のx=x2に折り目がある折れ線になり,S=|x3−t|のグラフは,右図黄色のグラフのように,x軸上のx=x3に折り目がある折れ線になる. |
@) t≧x3のとき
t≧x3, t≧x2, t≧x1となるから
A) x2≦t<x3のとき
S=|x1−t|+|x2−t|+|x3−t|=3t−(x1+x2+x3) となって,傾き3の直線になる
t<x3, t≧x2, t≧x1となるから
B) x1≦t<x2のとき
S=|x1−t|+|x2−t|+|x3−t| のうち2つは負の符号を付けてはずれ,1つは正の符号を付けてはずれるから S=(t−x1)+(t−x2)+(x3−t)=t−(x1+x2−x3) となって,傾き1の直線になる
t<x3, t<x2, t≧x1となるから
C) t<x1のとき
S=|x1−t|+|x2−t|+|x3−t| のうち1つは負の符号を付けてはずれ,2つは正の符号を付けてはずれるから S=(t−x1)+(x2−t)+(x3−t)=−t−(x1−x2−x3) となって,傾き−1の直線になる
t<x3, t<x2, t<x1となるから
3つの資料の場合,以上の@)〜C)から分かるように,x2まで減少で,x2から増加になる.したがって,中央値x2で最小値をとる.S=|x1−t|+|x2−t|+|x3−t| は3つとも正の符号を付けてはずれるから S=(x1−t)+(x2−t)+(x3−t)=−3t+(x1+x2+x3) となって,傾き−3の直線になる 偶数個n=2kの場合は,xk+1の右側で増加,xkの左側で減少,xkとxk+1の間で定数となるが,このxkとxk+1の間で定数が最小値となる. |
次の度数分布表で表される資料について,中央値(メジアン)を求めてください. |
解答を見る
11個の資料の中央値は,小さい方から順に数えて5番目の値になる.
40までに3個あるから,40〜45の階級を4等分して下から2個目 5÷4=1.25 1.25+1.25÷2=1.875 40+1.875=41.875≒41.9・・・(答) |
(1.3) 最頻値(モード,並み数) 資料の内で度数が最大である値を最頻値(モード,並み数)という. 最頻値はMoで表される.
(1) ほとんどの場合,度数分布表において度数が最大である階級の階級値を最頻値とすればよい.
(2) 詳細に答えるとき,度数が最大である階級を按分して最頻値とする方法も用いられる.
詳細に求めるには幾つかの方法があるが,次の式は放物線の頂点を最頻値とするものである
度数が最大である階級の下限をx0,階級幅をc,1つ下の階級の度数をf−1,度数が最大である階級の度数をf0,1つ上の階級の度数をf1とするとき |
(1) 少ない資料や実数の測定値そのままの資料などに対しても,最頻値の定義にあてはめることはできるが,そのようなものは偶然的事情で動きやすく,あまり意味のあるものではない.
【例】 資料が5個の値{ 1, 1, 2, 3, 4 }から成るとき,この資料の最頻値は1である.(2回出てきたから)
(2) 度数分布表における最頻値は,度数が最も大きな階級値とする.
【例】 小数第1位までの測定値が100この値{ 10.1, 12.3, 13.1, ....., 98.7 }から成るときに,たまたま15.7が2個含まれていても,その数字が出やすいということにはならない.
最頻値をこの意味で使うと,「最もよく売れる服装のサイズ」「よく売れる価格帯」のように日常生活との関わりが深い.
(3) 単峰形以外で,双峰形,多峰形,一様分布などの場合,「最頻値は幾つもあって決まらない」と言う場合もあり,「最頻値はない」という場合もあるが,単峰形以外の分布では,最頻値を考えてもあまり意味をなさないことが多い.
|
《参考》・・・以下の内容は,中学では使わない.高校以上では使うことがある (4) 度数最大の階級を按分して最頻値を詳しく求める方法
度数が最大である階級の下限をx0,階級幅をc,1つ下の階級の度数をf−1,度数が最大である階級の度数をf0,1つ上の階級の度数をf1とするとき
(解説)
この証明はどこにも書いてなかったので,筆者が試しに書いてみたものです.間違いがあればお知らせください
右図のように,放物線のグラフが3点を通っているとき,頂点のx座標pが最大となる点だから,この座標pの所に最頻値があると考える. この放物線は3点 を通るから ・・・(1) ・・・(2) ・・・(3) が成り立つ.これらの式からpを求めるとよい. |
(2)−(1) (2)−(3) したがって 以上により が求めるべき最頻値を与えるx座標である. |
【問題3】
解答を見る次の度数分布表A, B, Cについて,平均値,中央値,最頻値の大小関係を調べてください.
Bは単峰形で左右対称:平均値=中央値=最頻値=25
Aの平均値は 中央値は18.75,最頻値は15
最頻値を詳しい計算で求める場合は
したがって,最頻値<中央値<平均値Cの平均値は 中央値は31.25,最頻値は35
最頻値を詳しい計算で求める場合は
したがって,最頻値>中央値>平均値 |
(参考)ピアソンの経験則 上記のBのように完全に左右対称の場合は,平均値=中央値=最頻値であるが,少し左右にズレている場合,「平均値は,外れ値やロングテールに引きずられやすく,敏感に反応する」が中央値は,これらに左右されにくい. ピアソンは実験式・経験則の近似式として次の式を示した. すなわち,中央値は,平均値と最頻値を1:2に内分する点に来る. (経験則なので,証明はない.近似的なものだから,過大な期待は無理.「中央値」は中央だ!チャンチャン〜♪と覚えておけば役に立つかも) 上記のA, Cでは,近似的に成り立っている. |
【問題4】
次の度数分布表A, Bについて,平均値,中央値,最頻値の大小関係を調べてください.なお,中央値,最頻値は,その値が含まれる階級を按分して詳しい値で求めてください.
|
解答を見る
Aの平均値は
Aの中央値は 60≦x<70の階級に10番,11番があって,その中央だから Aの最頻値は 60≦x<70の階級を(7−6):(7−3)=1:4に内分する点を考えて したがって,平均値<中央値<最頻値・・・(答) Bの平均値は Bの中央値は 50≦x<60の階級に10番,11番があって,その中央だから Bの最頻値は 50≦x<60の階級を(7−3):(7−5)=2:1に内分する点を考えて したがって,平均値>中央値>最頻値・・・(答) |
確率統計のメニューに戻る 高校数学のメニューに戻る |