脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

単純仮説/複合仮説の場合における有意水準αの仮説検定(例題付き)【統計検定1級対策】

仮説検定において「有意水準αの検定を求めよ」みたいな問題を最近よく解いておりますが、単純仮説の場合はいいんですけれども、複合仮説の場合がどうも理解できなかったので、まとめ直してみました。

 

まず、単純仮説・複合仮説の定義から順番に考えて、例題を解いてみます。

 

目次:

 

単純仮説と複合仮説とは

単純仮説はその仮説下でパラメータの値が一つに決まるもの複合仮説は一つに決まらないものを指します。

 

具体的に示しますと、帰無仮説H_0においてH_0:\theta=0とかH_0:\theta=\theta_0(定数)みたいなのは単純仮説です。

 

逆にH_0:\theta\lt0H_0:\theta\lt\theta_0みたいなのは複合仮説と言われます。値が一つに決まってないからですね。

 

表現の仕方の違いですが、単純仮説では確率分布が一つに決まる、複合仮説では複数になる、と言われたりもします。パラメータによって確率分布は変わるのでこれはただ言い方が違うというだけです。

 

有意水準αの検定とは

サイズαの検定と呼ばれることもあります。

 

定義としては

P(検定の棄却域)=α

となるような検定です。

 

実は正確な定義として、帰無仮説\theta\in\Theta_0を満たすとすると(\Theta_0は満たすパラメータの集合)

\sup_{\theta\in\Theta_0}P(検定の棄却域)=α

となるのですが。自分の場合、ここでなぜ確率上界を示すsupが出てくるのか分からなくなりました。同じような人はぜひ記事を読み進めてください。

 

単純仮説の例

まずは単純仮説の場合を考えてみます。例題として次を考えます。

 

 

例題:サンプルX_1, X_2, ..., X_n\sim N(\mu,1)があるとする。ここで\muは未知のパラメータである。帰無仮説H_0:\mu=0、対立仮説H_1:\mu\gt0とするとき、有意水準αの尤度比検定を求めよ。

 

 

帰無仮説が単純仮説の場合は簡単で、過去の記事で一度やっています。

medibook.hatenablog.com

 

ここに\sigma=1, \mu_0=0を代入すればいいので

\sqrt n\bar X\sim N(0,1)となります。(対立仮説から、片側検定であるためχ二乗分布ではなく正規分布に従うことを用いています)

 

よって棄却域は正規分布のα%分位点をz_\alphaとして

\sqrt n\bar X\gt z_\alphaとなります。

 

これは当然のことながら

P(\sqrt n\bar X\gt z_\alpha)=\alpha

となるので、解答となります。

 

単純仮説の場合は比較的迷うことなく分かります。

 

複合仮説の例

例題の条件を少し変えて考えてみます。

 

 

例題2:サンプルX_1, X_2, ..., X_n\sim N(\mu,1)があるとする。ここで\muは未知のパラメータである。帰無仮説H_0:\mu\leq0、対立仮説H_1:\mu\gt0とするとき、有意水準αの尤度比検定を求めよ。

 

 

複合仮説の場合は前述のように、有意水準αの検定というのは以下の条件になります。

\sup_{\mu\leq0}P(検定の棄却域)=α

 

なんでこうなるのか、多分分かる人には至極当然なんでしょうけれども、数学的センスのなさ故にさっぱりだったので、図をみて考えてみます。

f:id:medibook:20200711051832j:plain

先ほどの記事で使った図ですが尤度比検定はこの二つの差をみています。単純仮説の場合はμ=0でしたので単純にそれを計算すればOKです。

 

複合仮説の場合はどうなるかというと

f:id:medibook:20200711051817j:plain

μは上図の範囲のどこかの値ということになります。

当然そうするとP(検定の棄却域)の値も変わってくるわけですが、大事なのはどこの時の値か、ということ。

 

定義式が示す通り、もっとも大事なのは一番大きい値です。棄却域に入る確率がせいぜい高くてもここまでと決まっていることが重要なんです。

 

例えば、有意水準をp=0.05としたとき、データを出してp=0.03で棄却することやp=0.04で棄却することは構いませんが、p=0.08を棄却されたら困るでしょう。一番大きい値を保証することが必要なので、定義としてその複合仮説で最も大きい値である上界を用いて\sup_{\mu\leq0}P(検定の棄却域)=αとするわけです。

 

この前提に立って、さきほどの問題をみてみます。

単純仮説の場合に求めた棄却域を使って考えてみるとμ=0のとき

P(\sqrt n\bar X\gt z_\alpha)=\alphaとなります。

 

この検定の棄却域を用いて、μの範囲が拡大した場合を考えます。\mu\leq0を条件としてμを定数としてとらえると

\sqrt n(\bar X-\mu)\sim N(0,1)

となります。これを利用しつつ、先ほどの検定の棄却域を保ったまま変形すると

 

P(\sqrt n(\bar X-\mu)\gt z_\alpha-\sqrt  n\mu)\\=P(Z\gt z_\alpha-\sqrt  n\mu)

 

ここでZは標準正規分布に従う確率変数とします。

するとμは負であることから

P(Z\gt z_\alpha-\sqrt  n\mu)\leq P(Z\gt z_\alpha)

となります。ここが分からない人は以下の記事を参照ください。汚い図で説明してます。

medibook.hatenablog.com

 

よって、確率上界がαであることが確認できたので、有意水準αの検定は

\sqrt n\bar X\gt z_\alpha

となります。単純仮説で示した値がちょうど確率上界であったので、同じになるのです。もちろんそうならない場合もありますし、どこが上界になるのかは注意が必要です。

 

 

ちなみに上記のp値の記事に若干嘘がありまして、p値の定義式も複合仮説の場合を含めて正確にいえば

\sup P(ある検定統計量\gt実際の検定統計量の観測値|帰無仮説の条件)

なのです。これも結局一番大きい値が大切なので、確率上界が用いられています。

 

参考文献:

現代数理統計学の基礎 (共立講座 数学の魅力)

現代数理統計学の基礎 (共立講座 数学の魅力)