Nラボ備忘録

TAKE IT EASY

MENU

統計学入門⑤ データの散らばり( Ⅰ )

久しぶりの統計学入門シリーズなので、この記事を読む前に以下の統計学入門⓪に目を通していただけると、この記事のテーマをご理解いただけると思います。

nlab-notebook.com

前回の記事で代表値について書きました。

nlab-notebook.com

今回は、データの散らばりについて紹介していきます。まず、データの散らばりを表す手段である 箱ひげ図 を使ってデータの散らばりについて考えていきましょう。
そもそも箱ひげ図とは"箱"と"ひげ"を使ったグラフです。下に箱ひげ図の例を記載します。

箱ひげ図の例


ここで、箱ひげ図でポイントとなる5数要約について紹介します。
※ここでは、箱ひげ図で5数要約を紹介していますが、5数要約は箱ひげ図に限らずデータの散らばり具合や分布を表す数として一般的に使われます。

最小値
最小値は、データの中で最も小さい数です。そのままですね。

最大値
最大値は、データの中で最も大きい数です。そのままですね。

第2四分位数
データを小さい順に並べたときに中央にある数です。つまり中央値と同じですね。ということは、データの数が偶数個と奇数個で求め方が変わるので注意が必要ですね。

第1四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、小さい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。

第3四分位数
データを小さい順に並べて第2四分位数で半分に分けます。そのうち、大きい側のグループの中央値です。わかりづらいので、練習問題で確認しましょう。

ちなみにですが、四分位数の意味は、データの集まりをつにける置にある値と解釈すれば覚えやすいかもしれません。

Exercise1-4 

とある大学生6人が持っているマンゴスチンの数を調査したところ 5個, 10個, 3個, 14個, 8個, 2個 だった場合の最小値、最大値、第1四分位数、第2四分位数、第3四分位数を求めてみましょう。



ここまでのまとめ 最小値・・・データの中で最も小さい数
最大値・・・データの中で最も大きい数
第2四分位数・・・データを小さい順に並べたときに中央にある数
第1四分位数・・・データを小さい順に並べて第2四分位数で半分に分け、小さい側のグループの中央値
第3四分位数・・・データを小さい順に並べて第2四分位数で半分に分け、大きい側のグループの中央値



大したブログではないですが、読者になっていただければ嬉しいです。Twitterも始めているのでフォローよろしくお願いします。