== 統計データの種類,尺度水準 ==
定性的データ ( 質的変数,カテゴリーデータ,カテゴリカルデータ )
(単にカテゴリーデータという場合,名義尺度を指すことがある.この場合,順序尺度は順序カテゴリーデータという.) 名義尺度(nominal scale)
・・・離散的な数値を用いる単に分類するために整理番号として数値を割り当てたもの
名義尺度の数値が同じならば同じ分類に属し,数値が異なれば異なる分類に属する.区別するためだけに用いられている数値なので,等しいか等しくないかのみ意味があり,幾ら大きいか,何倍大きいかなどの意味はない.
度数を数えることはできるが,2が1と3の間という意味もないく,2が1の2倍という意味もない.
→[○]度数,最頻値
→[×]平均,分散,標準偏差例 血液型(A型:1,B型:2,・・・,O型:4),男女の性別(男:0,女:1),電話番号,国別,名前,職業,背番号,都道府県の整理番号
(血液型 [A型:1,B型:2,AB型:3,O型:4] の例 1, 4, 2, 3 , 1, 2 , 4, 1, 4, 1 のようなデータでは,度数は数えられるが,平均には意味がなく,B型はA型とAB型の間という意味もない.) 順序尺度(ordinal scale)・・・離散的な数値を用いる 順序には意味があるがその間隔には意味がない数値を割り当てたもの大小比較は可能であるが,間隔や比率には意味がない.
→[○]度数,最頻値,中央値
→[×]平均,分散,標準偏差例 好きなスポーツの順位(野球:1,サッカー:2,・・・),マラソンの着順(1位,2位,・・・),果物の等級,大中小の分類,成績の5段階評価,満足度
(マラソンの着順で考えると,1位は2位よりも上位であるが,1位と2位の間隔は2位と3位の間隔と同じとは言えず,4位が2位の2倍のタイムとも言えない.)定量的データ ( 量的変数 ) 間隔尺度(interval scale)
[距離尺度(distance scale)]目盛が等間隔になっている(等間隔であると仮定されている)もの和差には意味があるが比率には意味がない.例 知能指数,摂氏の温度,西暦の年号,偏差値
(*)客の満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1) 比例尺度(ratio scale)
[比尺度,比率尺度]原点(0)の決め方が定まっていて,間隔にも比率にも意味があるもの和差積商の計算が自由にできる.例 身長,体重,面積,人数,回数,金額,絶対温度※ 名義尺度<順序尺度<間隔尺度<比例尺度 の順に情報量が多くなり,大は小を兼ねることができる.
(例) 比例尺度のデータを元にして,等間隔の階級に分けられたヒストグラムを作ることができる.この場合,比例尺度のデータを間隔尺度に変換していることになる.しかし,逆に低い方の尺度から高い方の尺度に変換することはできない.
※ 間隔尺度以上と言えば,間隔尺度と比例尺度を表わし,間隔尺度以下と言えば,間隔尺度,順序尺度,名義尺度を表わす.
※ 水準・・・目盛りの数.目盛りが5個あれば5水準という.
■紛らわしいもの■
数字が登場して区分が紛らわしいものをまとめてみた.
《1》 整理番号として使われているものは,質的変数・名義尺度
@何丁目何番地のような住所の表示に使われている数字,Aアパート・マンションの番号,B郵便番号,C電話番号,D何年生という学年の番号,E何組というクラスの番号,F学生番号(出席番号)G野球,サッカー,陸上競技などの選手の番号は,すべて質的変数・名義尺度
《2》 幅のある区間として使われているものは,質的変数・順序尺度⇒ 同じかどうかの区別にのみ使われている
@10≦X<20のような階級の区分,A10代,20代,・・・のような年代,B10時〜11時のような時間帯,C秀優良可のような果物の等級,高額所得層・中間所得層・低額所得層のような区分は順序の区別があるので順序尺度(使い方によっては,名義尺度とも言える)
《3》 回数,人数,年齢,日付,時刻のように整数値だけをとるものも量的変数
回数,人数,年齢は比例尺度:0があって,2倍がある
日付,時刻は間隔尺度:差には意味があるが,2倍には意味がない ※離散的変数,連続的変数の区別は,質的・量的の区別や尺度とは別の話 |
【問題1】
解答を見る次のうちで名義尺度はどれですか.該当する記号で答えてください. (A) 人数, (B) 西暦の年号, (C) 野球選手の背番号, (D) レースの結果の順位
(A) 人数は比例尺度で量的変数
2倍の人数とか半分の人数のように,掛け算・割り算の結果に意味があるものは比例尺度
(B) 西暦の年号は間隔尺度で量的変数
西暦100年と300年の間は200年で,西暦500年と700年の間と等しいというように間隔(引き算)には意味があるが,西暦200年が西暦100年の2倍新しいなどとは言えない.
(C) 野球選手の背番号は名義尺度で質的変数←これが答
背番号は選手を区別するだけに用いられており,1番の選手が2番の選手よりも強いというような意味はない
(D) レースの結果の順位は順序尺度で質的変数
例えば,マラソンで2位になった選手は1位になった選手の2倍の時間を要した(比例尺度)訳ではなく,また,1位と2位の時間差が,2位と3位の時間差と等しい(間隔尺度)訳でもない
【問題2】
解答を見る次のうちで量的変数はどれですか.該当する記号で答えてください. (A) 血液型, (B) 偏差値, (C) 果物の等級, (D) アンケート調査に使われる満足度
(A) 血液型は名義尺度で質的変数
血液型は同じものと別のものを区別するための名前で,AB型はA型とB型の中間というような意味はない
(B) 偏差値は間隔尺度で量的変数←これが答
偏差値は平均値を50点,標準偏差を10点とする正規分布に当てはめたもので,偏差値70と60の差は,偏差値60と50の差と等しいと仮定されているが,偏差値50の人が偏差値25の人の2倍できる訳ではない
(C) 果物の等級は順序尺度で質的変数
果物の等級は優良可などと表されることが多いが,仮に1等級,2等級,3等級などの数字を使って表示されていても,1等級が2等級の2倍おいしいとは言えず,1等級と2等級の差が2等級と3等級の差に等しいとも言えない
(D) 満足度は順序尺度で質的変数
満足度を(非常によい:4,よい:3,悪い:2,非常に悪い:1)のように分類した場合,順序は区別できるが,間隔が同じとは限らない.
※ただし,アンケート調査結果をあえて間隔尺度と解釈して,平均や標準偏差を出してみる報告書には,時々出会う.選択肢を(非常によい:5,よい:4,普通:3,悪い:2,非常に悪い:1)とした場合と比較すると,よいと悪いの間隔は1なのか2なのか,根拠は示しにくいから,結果の使い方にも注意が必要 |
【問題3】
解答を見る次のうちで順序尺度はどれですか.該当する記号で答えてください. (A) 成績の5段階評価, (B) 金額, (C) 電話番号, (D) 性別
【問題4】
解答を見る次のうちで間隔尺度はどれですか.該当する記号で答えてください. (A) 大中小の分類, (B) 知能指数, (C) 体重, (D) 都道府県の整理番号 |
(携帯版)統計メニューに戻る ...メニューに戻る |