✔ 学習ポイント
記述統計学は、観測データを要約し、集団の特徴を把握します。
度数分布表やヒストグラムで直感的に、平均値や分散などの要約統計量で数学的にデータを捉えます。
推測統計学は、標本から母集団を推測する手法です。全数調査が困難な場合に使われ、標本抽出が重要です。単純無作為抽出を行うことが理想ですが、完全に偏りなく行うことは現実的には難しいです。
記述統計学とは何か、説明してください。
記述統計学とは、分析対象となった集団で個別にデータを観測し、得られたデータを要約することです。膨大なデータを分かりやすく整理し、特徴を直感的に捉えることが可能になります。
データを階級で整理する度数分布表やそれをグラフ化したヒストグラム、またデータの中心や散らばりを示す平均値や分散などの要約統計量を算出します。推測統計学とは何か、記述統計学との違いに触れながら説明してください。
推測統計学とは、手元のデータ(標本)の情報をもとに、その背後にあるより一般化された集団(母集団)の性質を推測によって導き出すことです。
全数調査が現実的に不可能な場合に用いられます。記述統計学が観測データ全体を要約・記述するのに対し、推測統計学は標本から未観測の母集団の特徴を推定するという点で異なります。「標本」と「母集団」とはそれぞれ何か、その関係性にも触れて説明してください。
「母集団」とは、調査したい集団の全体を指します。一方、「標本」とは、分析対象となった集団から実際に得られたデータです。
推測統計学では、母集団全体の情報を直接得るのが困難なため、適切に抽出された標本のデータを用いて、母集団の性質を推測・推定します。標本は、単純無作為抽出で得ることが望ましいです。
クリック/タップで表示(記事末尾にも設置)
記述統計学とは
記述統計学とは、分析対象となった集団で個別にデータを観測し、得られたデータを要約することです。
統計学と聞くと、なんだか難しそうに感じる方もいるかも知れません。でも安心してください。統計学というのは、意外と身近に潜んでいるものです。
例えば、1年A組の生徒が受けたテストの平均点数を算出した場合、それは立派な記述統計学です。なぜなら、1年A組という「集団」で、生徒の「個別」の点数を測定し、平均値化してクラスの傾向として「要約」しているからです。
さて、データの要約の仕方は大別して2種類あります。特徴を「直感的」に掴むのか、「数学的」に掴むのか、の違いで分けて考えていきましょう。
度数分布表とヒストグラムとは
まず、特徴を直感的に掴む場合は、度数分布表やヒストグラムが役に立ちます。
度数分布表とは、どのような値のデータがどのくらいの割合で含まれているのかを掴むことを目的に、データの値とその個数(度数)を対応させて整理した表です。データの値を階級(範囲)で分類することで、よりわかりやすく整理することができます。そして、ヒストグラムとは、度数分布表をグラフ化したものです。
この2つを利用するだけで、膨大なデータであっても簡単に理解ができるようになります。では、実際に度数分布表とヒストグラムを作成してみましょう。
例えば、身長測定の場面を思い浮かべてみてください。この場合、値に対応するのが身長(cm)であり、度数に対応するのが測定人数です。そして、25人の身長を測った結果、以下のようなデータが得られたとします。
[154cm, 167cm, 179cm, 181cm, 171cm, 164cm, 176cm, 172cm, 159cm, 168cm, 152cm, 177cm, 171cm, 161cm, 172cm, 184cm, 166cm, 162cm, 179cm, 158cm,184cm, 169cm, 151cm, 156cm, 173cm]
この状態では集団にどのような特徴があるのか直感的には把握しにくいですね。そこで、以下のような度数分布表、ヒストグラムを作成しました。今回は階級を10cm単位で設定します。
度数分布表

ヒストグラム

文章で見るよりも、こうして表やグラフに整理されていると、パッと見ただけでデータの分布がわかるのではないでしょうか。
これがデータを直感的に掴む度数分布表とヒストグラムです。
ちなみにヒストグラムは棒グラフと似ていますが、データの値に連続性があるか否か、という点で使い分けられています。
今回の例の[150~159cm]と[160~169cm]は階級で分けられているものの、実際は[159, 160, 161,…]と連続している数値です。一方、棒グラフで利用されるのは「地域ごと(東京、大阪)」や「クラスごと(A組、B組)」のように、集団に連続性がなく独立している場合です。
要約統計量とは
次に、データを数学的に掴むための要約統計量について見ていきましょう。
要約統計量は集団のデータの特徴が要約された数値のことで「代表値」や、データの散らばりを表す「散布度」が挙げられます。
代表値
代表値は「平均値・中央値・最頻値」のことで、1つの値で集団全体(データ)をなんとなく表すことができます。そして、散布度からはそのデータの特徴を掴むことができます。
例えば、「平均年収」はその名の通り1年間の給与の平均値を示しています。「会社Aの平均年収は500万円で、会社Bの平均年収は800万円」と聞くと、会社Bの方がたくさん給与を貰えそうだと分かりますよね。このように平均値などの代表値は、1つの数値で集団全体をなんとなく表すことができます。
しかし、代表値だけに着目していると、集団の特徴を見落としてしまうことがあります。先ほどの会社Aと会社Bの平均年収を、職種ごとの視点から改めて確認してみましょう。

なんと、会社Bで営業になれば多額の給与が貰えますが、それ以外の職種だと会社Aのほうが待遇が良さそうですね。平均年収につられて企業Bに入ってしまうと、「想像と違う!」とショックを受けてしまうかも知れません。
このように平均値は極端に大きい値「外れ値」の影響を受けやすいのです。そのため、平均値を参考にするときは、それがどのようなデータから算出されているかにも気を使う必要があります。
分布度
「集団の特徴を掴みたい!」そんなときに役立つのが分布度です。
分布度は、簡単にいえば「個々のデータが平均値からどの程度離れているかを示す値」です。分布度には「範囲」や「分散」、「標準偏差」などが存在しますが、今回は最も簡単な「範囲」について取り上げて解説します。
範囲とは、データの最大値から最小値を引いた値です。例えば、企業Aでは「600万-425万=175万」となり、企業Bでは「2,525万-400万=2,125万」です。このことから、企業Aは職種に関わらず給与が安定的ですが、企業Bだと職種による影響がかなり大きいとわかりますね。
このような特徴は平均値だけを見比べていてもわかりません。これが分布度、もとい、データの散らばりを確認することが重要な理由です。
推測統計学
推測統計学とは、手元のデータ(標本)の情報をもとに、その背後にあるより一般化された集団(母集団)の性質を推測によって導き出すことです。
推測統計学において特徴的なのは、集団の一部のデータを観測し、集団全体の特徴を推測する点です。
例えば、大学生の平均身長を調べたいと思ったしましょう。しかし、日本には大学生が約300万人いるそうです。その全員の身長を調べるとなれば、国家プロジェクトのような大規模調査でなければ不可能でしょう。
この不可能を可能にするのが「推測統計学」なのです。
標本と推測
推測統計学における「母集団」とは、調査したい集団の全体を指します。そして「標本」とは、分析対象となった集団から実際に得られたデータです。
例えば、大学生の平均身長を出したいとき、母集団は約300万人の大学生です。しかし、そんな大人数は測定できず、実際に身長を測定できたのは1,000人でした。この場合、約300万の母集団のうち、データが得られた一部(1,000人)が標本なのです。
推測統計学では、得られた1,000人分の標本データから全国の大学生の平均身長(母集団)を推測していきます。ちなみに、このような調査手法は「標本調査」と呼ばれます。一方、母集団全てのデータを集めた場合は「全数調査」と呼ばれます(この場合、推測統計学は必要ありません)。

標本調査で最も重要なのが「標本抽出」、つまり、どのようなデータを一部のデータとして集めるか、です。なぜなら、この標本抽出の手順を誤ってしまうと、推測される結果が母集団とは大きくズレてしまう可能性があるためです。
例えば、先ほど集めた1,000人の身長が全て女子のデータだった場合、大学生の平均身長は本来の値より低く推測されてしまいそうですよね。もちろん、これが「女子大学生」の平均身長を求めたい場合であれば問題ありません。しかし、「大学生全体」の平均身長を推測したい場合は、女子のデータだけを集めた標本は適切とは言えません。
標本抽出で最も理想なのは、単純無作為抽出(ランダムサンプリング)と呼ばれる方法です。単純無作為抽出では、母集団から標本を完全にランダムに選び、母集団のミニチュアのようなデータを集めます。
「ランダムに選ぶ」というのは一見すれば簡単なのですが、実際の調査や実験では、この部分が課題になることが多いです。
例えば、標本とする大学生を完全にランダムに選ぶところまで成功したとします(これ自体も難易度が高いですが、それは一旦さておき)。そして、その人たちに「調査をするので協力してください!」と依頼をしたとして、8割が承諾、2割に拒否されたとしましょう。
実はこの場合、得られたデータはすでに、「調査協力をしてくれる集団」として特徴が偏っているのです。「協力意思の有無は身長に関わらないだろう」という意見もあるかと思いますが、ここでお伝えしたいのは「完全にランダムに選ぶ」というのは想像以上に難しいということです。
正確な推測をするために、まずは適切な標本抽出ができるように工夫していきましょう。そうすることで、標本から得られたデータは、母集団のデータの妥当な推定値と言えるようになるのです。
問題
記述統計学とは何か、説明してください。
記述統計学とは、分析対象となった集団で個別にデータを観測し、得られたデータを要約することです。膨大なデータを分かりやすく整理し、特徴を直感的に捉えることが可能になります。
データを階級で整理する度数分布表やそれをグラフ化したヒストグラム、またデータの中心や散らばりを示す平均値や分散などの要約統計量を算出します。推測統計学とは何か、記述統計学との違いに触れながら説明してください。
推測統計学とは、手元のデータ(標本)の情報をもとに、その背後にあるより一般化された集団(母集団)の性質を推測によって導き出すことです。
全数調査が現実的に不可能な場合に用いられます。記述統計学が観測データ全体を要約・記述するのに対し、推測統計学は標本から未観測の母集団の特徴を推定するという点で異なります。「標本」と「母集団」とはそれぞれ何か、その関係性にも触れて説明してください。
「母集団」とは、調査したい集団の全体を指します。一方、「標本」とは、分析対象となった集団から実際に得られたデータです。
推測統計学では、母集団全体の情報を直接得るのが困難なため、適切に抽出された標本のデータを用いて、母集団の性質を推測・推定します。標本は、単純無作為抽出で得ることが望ましいです。
クリック/タップで解答表示
記事をお気に入りに追加






