【医療統計YouTube】95%信頼区間【第8回】

今回もまたなかなか時間を要してしまいましたが、新しいyoutube動画公開しました。

今回のテーマは95%信頼区間です。

その意味がどうしても取りづらい概念で、統計学の歴史に詳しい『統計学を拓いた異才たち』を見ても、初めて学会発表された際の混乱した様子がうかがえます。

この本では1934年に区間推定の生みの親であるイェジー・ネイマンが発表したときのA.L.Bowleyという統計学者の反応が書かれています。

「これは、われわれが必要とすることーサンプリングにおける母集団に対して、その信頼区間が一定の範囲内に収まる可能性ーを示してくれるのだろうか。そうではないのだろうか、いや、私は自分の考えを適切に表現できているのかどうかさえも、よくわからない。しかし、この方法が初めて示された時から、どうも問題があるように思えてならない。この理論の展開は説得力がないので、自分が納得できるまで信頼区間の妥当性を疑わざるを得ない。」（『統計学を拓いた異才たち』第１２章「信用」詐欺より引用）

うーん、何を示すものなのかよくわからない気持ちになっていたわけですね。実際のところ、この区間推定は”一定の範囲内に収まる可能性”を示す指標ではないので、名前に反していて理解しにくいのかと思います。

ここで数式が理解できると本質的な意味がもう少し分かりやすくなり、動画で紹介していたような仮説検定と対応した概念ということもよくわかります。以下に一度式の流れを書いてみますので、細かい数式はわからない人でも気にせずに雰囲気だけみてもらえるとよいかもしれません。

数式的な補足

例として中心極限定理を用いて正規分布に近似できるようなサンプル数を集めた標本平均 $\bar X$ があったとします。

この標本平均は平均 $\mu$ と分散 $\frac{\sigma^2}{n}$ （母分散は $\sigma^2$ ）に従う正規分布となります。

ここで

帰無仮説 $H_0:\mu=\mu_0$

対立仮説 $H_1:\mu\neq\mu_0$

であるとして、有意水準5%の統計学的仮説検定を行います。つまり母平均が $\mu_0$ であるという仮説を検定するわけです。

すると受容域、つまり母平均が $\mu_0$ であることを正しいとする場合は

$-1.96\leq\frac{\sqrt n(\bar X-\mu_0)}{\sigma}\leq1.96$

と示されます。

ここで母平均を不等号の中心にして式を変形すると以下のようになります。

$\bar X-1.96\frac{\sigma}{\sqrt n}\leq\mu_0\leq\bar X+1.96\frac{\sigma}{\sqrt n}$

つまり信頼区間の算出はもともとの仮説検定の式を変形しただけなんですね。数学的には全くの同値であることがわかります。こうみると標本平均±1.96標準誤差を示す式になっていることも理解できます。

さらに細かいことを言えばこの標本平均 $\bar X$ は実現値ではなく変数です。統計学では小文字で実現値を書くことになっていますので（ $\bar x$ という感じ）実現値を代入したら、この不等式を満たすか満たさないかはひとつに決まります。つまり、動画で述べていたように、この式があらわすことは母平均がこの範囲をとる確率が95%ではないということですね。

なお、今回は分散が既知としていますが、実際は未知のことが多いのでここも推定値を用いて計算することになります。

ちなみに、真の値を含む確率が95％と区間というものも実はありまして、ベイズ信用区間(Bayesian credible interval)と言われています。ベイズ統計では「母平均は固定されたもの」とは考えず、確率分布に従うものとみなすため、真の値を含む確率が95％となるような区間を求めることができます。

ベイズの法則に出てくる事前確率・事後確率と同様に事前分布・事後分布という確率の分布を想定するため、事前分布に何を用意するかによって変化しますから、ここで出てくる95%信頼区間とは基本的に異なる数値となります。

参考文献：

リンク

当サイトに掲載されている広告について

当サイトでは、第三者配信の広告サービス（Googleアドセンス、を利用しています。
このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報『Cookie』(氏名、住所、メールアドレス、電話番号は含まれません) を使用することがあります。
またGoogleアドセンスに関して、このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、こちらをクリックしてください。

当サイトが使用しているアクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。
このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。
このトラフィックデータは匿名で収集されており、個人を特定するものではありません。
この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。
この規約に関して、詳しくはこちら、またはこちらをクリックしてください。

当サイトへのコメントについて

当サイトでは、スパム・荒らしへの対応として、コメントの際に使用されたIPアドレスを記録しています。
これはブログの標準機能としてサポートされている機能で、スパム・荒らしへの対応以外にこのIPアドレスを使用することはありません。
また、メールアドレスとURLの入力に関しては、任意となっております。
全てのコメントは管理人であるmedibookが事前にその内容を確認し、承認した上での掲載となりますことをあらかじめご了承下さい。
加えて、次の各号に掲げる内容を含むコメントは管理人の裁量によって承認せず、削除する事があります。

特定の自然人または法人を誹謗し、中傷するもの。

極度にわいせつな内容を含むもの。

禁制品の取引に関するものや、他者を害する行為の依頼など、法律によって禁止されている物品、行為の依頼や斡旋などに関するもの。

その他、公序良俗に反し、または管理人によって承認すべきでないと認められるもの。

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

【医療統計YouTube】95%信頼区間【第8回】

数式的な補足