とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.32~区間推定~

こんにちは

最近は、TwitterGAFA(米国の主要IT企業であるグーグル(Google)、アマゾン(Amazon)、フェイスブックFacebook)、アップル(Apple)の4社の総称)社員を名乗る方のつぶやきをみて鼻で笑っていますWindowsのショートカットキーを勉強しています。

まぁ流石にネタだと思いますけどね。

さて、こんな前置きをしてますが、今回の記事とは一切関係ありません

区間推定とは

母集団の従う分布が正規分布であると仮定できる時、標本から得られた値を使って、ある区間で持って母数を推定する方法。この時の区間信頼区間という。(論文では略記でCI。おそらくConfidence Intervalのこと。)

区間推定を常日頃から使っているような学生さんや、データ分析を主とする方々はよく、「〇〇%信頼区間」という言葉を聞いたことがあるかと思います。よく使われる数字は95%、99%、90%がほとんどだと思われます。

このような、ある区間に母数が含まれる確率(95%や99%など)のことを信頼係数(信頼度)と言います。

95%信頼区間が意味するもの

ここで、仮に母平均を95%信頼区間で推定するとします。
統計Web 19-3. 95%信頼区間のもつ意味の記事でも紹介されていますが、95%信頼区間では95%の確率でその範囲にあるということを表しています

これは、①「正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる」という意味ではありません。

正しくは、②「母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる」です。

①と②の違いは何かというと、①は母集団から標本をとる作業を1回しか行っていませんが、②は母集団から標本をとる作業を100回行っています。このうち、95回は指定した区間内に母平均が含まれることが言えます。

①と②、違いが微妙ではありますが、使い方には十分気をつけましょう。

まとめ

今回の記事のまとめです。

次回は、母分散が既知の場合の母平均の信頼区間の求め方についてまとめます。

言葉 意味
区間推定 母集団の従う分布が正規分布であると仮定できる時、標本から得られた値を使って、ある区間で持って母数を推定する方法
信頼係数(信頼度) ある区間に母数が含まれる確率(95%や99%など)のこと