この教材で,4.のモーメント,歪度,尖度以外は高校レベルです.
《このページの目次》※クリックすれば該当項目にジャンプできます
1. 範囲(レンジ)
2. 四分位数,四分位範囲,四分位偏差,5数要約
箱ひげ図,五分位数,十分位数,百分位数
3. 標準偏差,分散
偏差平方和(偏差2乗和もしくは変動),仮平均
4. 変動係数(変異係数)5. モーメント,歪度,尖度
正規分布の歪度限界,正規分布の尖度限界,
外れ値の検出 1. 範囲(レンジ)
データの散らばり具合を表す値として,データの最大値から最小値を引いた差をデータの範囲またはレンジという.
【例1】
次のデータは,9人の生徒の右手の握力の測定結果だとします.(単位kg)
36, 35, 36, 38, 42, 52, 32, 45, 48 このデータの最大値はM=52,最小値はm=32だから範囲はM−m=20(kg)です. |
範囲はデータの散らばり具合を簡単な引き算によって表すことができますが,極端値(外れ値)に影響されやすいことが弱点です. 【例2】
例1のデータに対して,1人生徒を増やして10人のデータが次のようになった場合
36, 35, 36, 38, 42, 52, 32, 45, 48, 72 範囲は72−32=40(kg)になり,1人増えただけで範囲が2倍になってしまいます.
【問題1.1】
解答を見る次のデータ(A)はある学級の男子の右手の握力,(B)は女子の右手の握力だとします.(単位kg) (A) 33, 31, 37, 38, 42, 51, 32, 45, 47, 33 (B) 27, 25, 24, 30, 31, 36, 31, 32, 30, 28, 29, 28 この学級の男女右手の握力の散らばり具合をデータの範囲によって判断した場合,男女どちらの散らばり具合が大きいですか. |
2.5 第3四分位数から第1四分位数を引いた値を四分位範囲という.
範囲がデータの100%が含まれる区間の大きさを表すのに対して,四分位範囲はデータの中心付近のほぼ50%が含まれる区間の大きさを表す.
四分位範囲の半分の大きさを四分位偏差という.
範囲は外れ値の影響を受けやすいが,四分位範囲は外れ値の影響を受けにくい.
データが中央値の周りに集まっていると,四分位偏差は小さくなる.
2.6 一般の分位数としては,四分位数がよく使われるが,他に次のような分位数も使われている.
• 十分位数 → 厚生労働省 賃金構造基本統計調査 性,学歴,年齢階級別など • 五分位数 → 総務省家計調査 年間収入など • 百分位数 → 百分位点(パーセント点)とは,観測データを小さい順に並べたときに,その値よりも小さな値の割合が指定された割合(百分率)になるデータの値.例えば,50パーセント点は中央値と等しく,25パーセント点は第1四分位点に等しい. |
【問題1.2】
解答を見る次のデータの四分位数を求めてください. 1, 2, 3, 5, 5, 6, 8, 8, 9
(1) データ総数は9個なので,下から5番目の数5を中央値(=第2四分位数)とする.
(2) 小さい方の組の4個のうちで,2番目と3番目の中央(=2.5)を第1四分位数とする. 大きい方の組の4個のうちで,小さい方から2番目と3番目の中央(=8)を第3四分位数とする. Q1=2.5, Q2=5, Q3=8・・・(答)
【問題1.3】
解答を見る次のデータに対応する箱ひげ図を描いてください. 2, 3, 3, 5, 5, 6, 6, 7, 8, 9
(1) データ総数は10個なので,下から5番目と6番目の中央(=5.5)を中央値(=第2四分位数)とする.
(2) 小さい方の組の5個のうちで,3番目(=3)を第1四分位数とする. 大きい方の組の5個のうちで,小さい方から3番目(=7)を第3四分位数とする. (3) 最小値は2, 最大値は9 ・・・(答) |
【問題1.4】
解答を見る
(1) 数学,英語の得点の範囲,四分位範囲を求めてください. (2) 得点の散らばりが大きいのはどの教科ですか.
(1) 数学:範囲 90−10=80, 四分位範囲 65−25=40
英語:範囲 80−20=60, 四分位範囲 70−40=30 四分位範囲の比較により,数学の方が散らばりが大きいと言える・・・(答)
【問題1.5】
解答を見る右図の度数分布表@ABに対応する箱ひげ図を,下の(A)(B)(C)から選んでください. |
【問題1.6】
解答を見る右のグラフは,標準正規分布 の累積相対度数分布を表わしたものです. このグラフから言える,95パーセント点として最も近い値を,下の選択肢から選んでください.
F(z)=0.95となるzの値を読み取ります.
A z=1.66・・・(答) |
《重要公式》
【平均値の定義】
・・・(1.1) 【分散の定義】 ・・・(1.2) 【標準偏差の定義】 ・・・(1.3) 【分散の式の変形】 ・・・(1.4) 【標準偏差の式の変形】 ・・・(1.5) ※分散および標準偏差で,分母をN−1とするよく似た式が登場することがあるが,このページの大部分・・・(7.1)(7.2)(9.1)(9.2)以外・・・で述べているのは,記述統計として母集団のデータ自体を扱っている場合の公式です. これに対して,分母をN−1とするのは,母集団から抽出されたN個の標本から母集団の分散,標準偏差の値を推定するときに使う推測統計の公式です. |
【度数分布表から求まる平均値】
・・・(2.1) (ただし,) 【度数分布表から求まる分散】 ・・・(2.2) 【度数分布表から求まる標準偏差】 ・・・(2.3) 【分散の式の変形】 ・・・(2.4) 階級幅は とするとき ・・・(3.1) 【度数分布表で仮平均から求まる分散】 ・・・(3.2) 【度数分布表で仮平均から求まる標準偏差】 ・・・(3.3) |
《重要公式の解説》 (1.1),(1.2),(1.3)← これらが平均値,分散,標準偏差の定義です. Excel関数で直接計算できるのは,これらの の形でデータが与えられる場合です.後に登場する度数分布表で与えられた場合については,直接に平均,分散,標準偏差を値を求める関数は用意されていません. @データの個数, Aデータの総和, B平均値, C分散, D標準偏差
@=count(), A=sum(), B=average(), C=varp(), D=stdevp()
(1.4),(1.5)←※これらのExcel関数の中身が(1.1)〜(1.3)式になっています. ※var()やstdev()は推測統計で母集団の不偏分散,不偏標準偏差を求めるものです.[このページで扱っている記述統計の基本とは少しだけ違います] (1.2)を変形すると |
(1.1)により だから ・・・(1.4)■証明終わり■ なお,2乗平均はとも書かれ,平均は と書くことができるから と書くことができる. (1.4)のルートが(1.5)となる. |
◎簡単な例で公式の使い形を身に着けよう!
【問題2.1】
解答を見る
はじめに,観測値の個数が5個で観測値の総和が20であることから,平均値μ=4が求まる. 次に,この平均値μを使って,偏差,偏差平方の表を埋めて行くと,偏差平方和はアになる.これにより,分散イ,標準偏差ウが求まる. 空欄のアイウを埋めてください. 度数分布表から分散,標準偏差を求める
【問題2.2】
解答を見る
上の度数分布表で与えられるデータについて,分散と標準偏差を求めたい. はじめに,度数の合計が10でxkfkの総和が240であることから,平均値μ=24が求まる. 次に,この平均値μを使って,偏差,偏差平方,偏差平方和×度数の表を埋めて行くと,偏差平方和×度数の和は890になる.これにより,分散ア,標準偏差イが求まる. 空欄のアイを埋めてください. ※このような度数分布表で与えられたデータの平均値,分散,標準偏差をExcelのワークシート関数で直接計算することはできません.上記のようなデータの場合,階級値に度数分のデータがあるものとして 5, 15, 15, 25, 25, 25, 25, 35, 35, 35 というデータについて,=average(), =varp, =stdevp()などの関数を使うとできます. |
(分散)=(2乗平均)−(平均)2の公式を使う
【問題2.3】
解答を見る
階級値2×度数の和:ア 2乗平均:イ は幾らになりますか.
xk2,xk2fkを順に埋めて行けば求められるが,ここでは分散の値が書かれているから,逆算により次の答案が書ける.
仮平均を用いた計算(分散)=(2乗平均)−(平均)2の公式により 130=(2乗平均)−252 (2乗平均)=130+625=755→イ イ2×20=15100→ア
【問題2.4】
解答を見る
を導入すると ・・・(答) ・・・(答) ・・・(答) |
4. 変動係数(変異係数)
平均値が異なる2つの量や身長と体重のように単位の異なる2つの量の散らばり具合を比較するとき,単純に標準偏差の大きさだけで比較すると判断を誤る.このような場合には,(標準偏差)÷(平均値)で定義される変動係数(変異係数)によって比較するのがよい.(同一単位の量の比で定義される変動係数は,単位を持たない数値で,CV[Coefficient of Variation:この直訳が変動係数]で表される.) 変動係数はパーセントで表される場合もある.
【例】
(1) 幼稚園児と成人の身長の散らばり具合を比較する場合,身長の平均値が全く異なるため,標準偏差を単純に比較しても散らばり具合の比較として適当ではない.このような場合には,(標準偏差)÷(平均値)で定義される変動係数によって比較するのがよい. (2) 中学3年生の身長と体重の散らばり具合を比較する場合,単位も数値の大きさも全く異なるため,標準偏差を単純に比較しても散らばり具合の比較として適当ではない.このような場合には,(標準偏差)÷(平均値)で定義される変動係数によって比較するのがよい. ※文部科学省や厚生労働省の多くの統計資料で,平均値,標準偏差と並んで変動係数も示されている.
※筆者が困ったなと思う問題の備忘録
変動係数は,(標準偏差)÷(平均値)で定義され,割り算が可能な変数であることを前提としている.したがって,変動係数を定義できるのは比例尺度の変数に限られる. ところが,統計の教科書で,英語・国語・数学などで満点を100点として行われる試験の得点は間隔尺度であって,比例尺度ではないとされている. 以上の2つの事柄を前提とすると
@) 英語・国語・数学などの試験の得点は,変動係数を使って比較することはできないはずである.
@) 数学と英語の得点について,変動係数を使って散らばり具合を比較するという問題は,普通に見かけるが,得点は理屈上間隔尺度であるはずだからつじつまが合わないように思う.A) 比例尺度でない試験の得点に対して,平均値の半分というような基準は意味を持たないはずである. A) 高校では近年,到達度を基にした絶対的評価になったが,戦後長い間にわたって平均点を基準とする相対的絶対評価が行われてきた.すなわち,小中学校では正規分布を前提とする相対評価によって,5,4,3,2,1の人数比が固定されていたのに対して,高校では単位認定・進級認定を行う都合もあって,相対評価は行われず,また戦前の旧制高校のような認定主義による絶対評価も行われなかった.(少なくとも実技教科以外では) |
平均点を基にした相対的絶対評価を図で示すと,右図のようになる.(このようなグラフは,どこにも書いてない・・・いわゆる換算表というものを,筆者が見やすい形に直したもの.)これに当てはめて,クラス平均の40%もしくは半分以下の者を成績不振による単位不認定とする.
(正規分布を前提とする相対評価との端的な違いは,評価1とか5の人数比は固定されておらず,標準偏差が小さい場合,単位不認定となる評価1はめったに生じない(青い曲線の場合).逆に,標準偏差の大きなクラス[できる者とできない者が一緒に学んでいるクラス]では,評価1,5が出やすい(赤い曲線の場合)) ところで,比例尺度でない試験の得点に対して,平均値の半分というような基準は意味を持たないはずであるから,戦後約60年間行われて来た高校の単位認定基準の原理的な根拠は,本当に大丈夫だったのか?理論的には相対評価と絶対評価の折衷主義であるが,経験的には抜群の安定感がある経験則として使われており,得点は比例尺度として和差積商の変換が当然のように行える.零点には絶対的な意味があり,教えられた内容のうちで習得できたものが0%だったという意味になる.
【問題3.1】
解答を見る
上の表は,ある年の小学校1年生と中学校3年生の男女別体重の平均と標準偏差です.男女,小1中3の4通りの組合せのうちで,変動係数が最も大きいものはどれですか.
右の表により,変動係数は, 小1男子 0.164 中3男子 0.192
右の表により,変動係数は, 小1女子 0.162 中3女子 0.159 中3男子の変動係数が最も大きい・・・(答) |
3次の中心モーメントをそのまま書けば,次の式になる. この式は,平均値μと標準偏差σの影響を受けて変化するが,次のように変数の標準化を行うと,平均値μと標準偏差σの影響を受けず,いずれも平均値0,標準偏差1の分布になる.
■記述統計の場合■
ア) 左右対称な分布であるとき,3次関数は奇関数だから,右半分が正の符号になる分と左半分で負の符号になる分が打ち消しあって消えるから,歪度は0になる.
《与えられたデータ自体を母集団と見なす場合》 変数を標準化して求められる3次の中心モーメントは,歪度と呼ばれ,非対称性の度合いを表す. ・・・(6.1) ・・・(6.2) イ) 左の ウ) 右の 【例】 -- 図1 -- -- 図2 -- |
■推測統計の場合■
Excelのワークシート関数skew()は,上記(7.1)の推測統計の値になります.[skewness:歪度]《与えられたデータを標本として母集団の値を推定する場合》 ・・・(7.1) ・・・(7.2) Excelで[データ]→[データ分析]→[基本統計量]と進むと,歪度や尖度の値が出力されます.
《およその目安》
あるデータがどのような分布になるかは,度数分布表によって視覚的に分かることが多い.例えば,中心部の位置,散らばり具合,左右の片寄りなど,度数分布表によって分かることは多い.歪度は左右対称性を数値化したものです.歪度が0に近い分布は,左右対称であると言えます. • |歪度|<0.5のときは,ほぼ対称です. • 0.5≦|歪度|<1のときは,少し • |歪度|≧1のときは,かなり しかし,例えば誤差を除けば正規分布と見なせるかどうか,指数分布,一様分布など他の分布に由来するものでないかどうかは,歪度の数値を使った検定によって判断することができる. 歪度,尖度もしくはそれら両方を使って正規性の検定を行う方法が考えられている.次のような限界の値を見て,歪度|b1|の値からその分布が正規分布と見なせせるかどうかを判断します.(この表よりも大きければ正規分布でないとする) フィッシャーによる 5%:u=1.96, 1%:u=2.58
|
4次の中心モーメントをそのまま書けば,次の式になる. この式は,平均値μと標準偏差σの影響を受けて変化するが,次のように変数の標準化を行うと,平均値μと標準偏差σの影響を受けず,いずれも平均値0,標準偏差1の分布になる.
■記述統計の場合■
《与えられたデータ自体を母集団と見なす場合》 変数を標準化して求められる3次の中心モーメントは,尖度と呼ばれ,中心部分の尖り具合,すそ野の広がり具合を表す. ・・・(8.1) ・・・(8.2) ただし,正規分布の尖度が3になり,正規分布との比較の都合上,尖度の中心を3とする定義がよく用いられる. ・・・(8.1’) ・・・(8.2’)
■推測統計の場合■
《与えられたデータを標本として母集団の値を推定する場合》 ・・・(9.1)
・・・(9.2)
|
Excelのワークシート関数kurt()は,上記(9.1)の推測統計の値になります.[kurtosis:尖度] Excelで[データ]→[データ分析]→[基本統計量]と進むと,歪度や尖度の値が出力されます. (9.1)(9.2)の定義で,
• 正規分布の尖度は0になり,
というのが原則ですが,双峰型,一様分布など様々な分布があり,必ずしも原則通りとは限りません.• 尖度が正の分布は,中央部分が正規分布よりも尖っていて, • 尖度が負の分布は,すそ野の広い平坦なものになる 様々な統計で,平均値や標準偏差だけで分布の様子を判断されることが多いが,投資などの分野においては,歪度,尖度なども用いてテールリスクの回避が図られると言われている.例えば,尖度が大きいと,中心部分が尖っているだけでなく,すそ野も広がるので,テールリスクがあるなど. 次のような限界の値を見て,尖度|b2|の値からその分布が正規分布と見なせせるかどうかを判断します.(この表よりも大きければ正規分布でないとする) フィッシャーによる 5%:u=1.96, 1%:u=2.58
|
(1) 尖度という用語の意味は「 (2) 尖度の使い方として,この他に「
(その1)
《歪度,尖度の正規性検定,外れ値の検出:具体例》外れ値の存在は,度数分布表を見れば見当がつきますが,ではどの程度外れていれば「外れ値」と見なすのかということについて,よく使われる1つの目安として,箱ひげ図で 第3四分位数+1.5×四分位範囲より大きい値 第1四分位数−1.5×四分位範囲より小さい値 は外れ値と判断する. (その2) 尖度が5以上ならば外れ値が含まれる可能性が高い,尖度が10以上ならばほ確実に外れ値があると判断する. -- 図3 -- |
@は,歪度0.00(左右対称)で表1のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない.尖度0.08で正規分布よりはわずかに尖っているが,表2のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない. 外れ値の有無:四分位範囲×1.5で調べる外れ値なし,尖度5または10以上に該当しない Aは,一様分布で,歪度0.00(左右対称)で表1のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない.尖度−1.20で正規分布と比べて(見ただけで分かる)ずいぶんと平坦な分布になっている(ただし,一様分布で尖度が−1.2程度だということは参考になる.このことはデータ数が20,30となっても変わらず,一様分布の尖度は−1.20になるようである).表2のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない. 外れ値の有無:四分位範囲×1.5で調べる外れ値なし,尖度5または10以上に該当しない Bは,歪度3.16で右に大きくゆがんでいる.表1のN=10の場合の表から,5%の有意差を超えるから,正規分布という帰無仮説は棄却される.尖度10.00で表2のN=10の場合の表から,5%の有意差を超えるから,正規分布という帰無仮説は棄却される. 外れ値の有無:観測値10は四分位範囲×1.5で調べる外れ値に該当する.尖度10は外れ値の存在を示している. Cは,尖っていると見なせるかどうかの参考として調べたもの.歪度0.99で正だからやや山は左,テールは右と言える.表1のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない.尖度0.75で正規分布よりはわずかに尖っているが,表2のN=10の場合の表から,5%の有意差はないから正規分布という帰無仮説は棄却されない. 外れ値の有無:観測値6,7は四分位範囲×1.5で調べる外れ値に該当する.尖度0.75は外れ値は外れ値を検出しない.(この例では四分位範囲によるはいずれ値の検出と尖度による外れ値の検出は一致しない.データ数がもっと多ければ,外れ値なしと判断する事例だと思われる) |
【問題4.1】
解答を見る5.0, 5.1, 5.1, 5.2, 5.2, 5.2, 5.3, 5.3, 5.4, 9.9 (1) このデータを有意水準5%で正規分布と見なせるかどうか,表1,表2の両方について限界内にあるか否かで判断してください. (2) このデータに外れ値があるどうか,四分位範囲×1.5倍の基準,尖度が5以上の各々の基準で判断してください.
大きさ20のデータで歪度0.43<1.004は表1の限界内にある.大きさ20のデータで尖度3.69>1.945は表2の限界を超えているから,正規分布であるという帰無仮説は棄却される.
四分位範囲は5.2−3.5=1.7で,第3四分位数+1.5×四分位範囲=7.75<9.9だから,観測値9.9は四分位範囲の基準で外れ値と見なせる.尖度3.69<5だから尖度の基準では外れ値があるとは言えない. |
【問題4.2】
解答を見る3.9, 4.4, 4.6, 5.9, 6.6, 6.6, 6.7, 6.8, 7.1, 7.5 (1) このデータを有意水準5%で正規分布と見なせるかどうか,表1,表2の両方について限界内にあるか否かで判断してください. (2) このデータに外れ値があるどうか,四分位範囲×1.5倍の基準,尖度が5以上の各々の基準で判断してください.
大きさ20のデータで|歪度|=1.15>1.004は表1の限界を超えている(平坦過ぎる)から,正規分布であるという帰無仮説は棄却される.(|尖度|=1.1<1.945の方は,表2の限界内にある.)
四分位範囲は6.6−2.1=4.5で,第3四分位数+1.5×四分位範囲=13.35>7.5だから,上側の外れ値はない.第1四分位数−1.5×四分位範囲=−4.65<0.1だから,下側の外れ値もない.尖度−1.15<5だから尖度の基準で外れ値はない. |