単純仮説/複合仮説の場合における有意水準αの仮説検定（例題付き）【統計検定1級対策】

仮説検定において「有意水準αの検定を求めよ」みたいな問題を最近よく解いておりますが、単純仮説の場合はいいんですけれども、複合仮説の場合がどうも理解できなかったので、まとめ直してみました。

まず、単純仮説・複合仮説の定義から順番に考えて、例題を解いてみます。

目次：

単純仮説と複合仮説とは
有意水準αの検定とは
単純仮説の例
複合仮説の例

単純仮説と複合仮説とは

単純仮説はその仮説下でパラメータの値が一つに決まるもの、複合仮説は一つに決まらないものを指します。

具体的に示しますと、帰無仮説 $H_0$ において $H_0:\theta=0$ とか $H_0:\theta=\theta_0(定数)$ みたいなのは単純仮説です。

逆に $H_0:\theta\lt0$ や $H_0:\theta\lt\theta_0$ みたいなのは複合仮説と言われます。値が一つに決まってないからですね。

表現の仕方の違いですが、単純仮説では確率分布が一つに決まる、複合仮説では複数になる、と言われたりもします。パラメータによって確率分布は変わるのでこれはただ言い方が違うというだけです。

有意水準αの検定とは

サイズαの検定と呼ばれることもあります。

定義としては

$P(検定の棄却域)=α$

となるような検定です。

実は正確な定義として、帰無仮説が $\theta\in\Theta_0$ を満たすとすると（ $\Theta_0$ は満たすパラメータの集合）

$\sup_{\theta\in\Theta_0}P(検定の棄却域)=α$

となるのですが。自分の場合、ここでなぜ確率上界を示すsupが出てくるのか分からなくなりました。同じような人はぜひ記事を読み進めてください。

単純仮説の例

まずは単純仮説の場合を考えてみます。例題として次を考えます。

例題：サンプル $X_1, X_2, ..., X_n\sim N(\mu,1)$ があるとする。ここで $\mu$ は未知のパラメータである。帰無仮説 $H_0:\mu=0$ 、対立仮説 $H_1:\mu\gt0$ とするとき、有意水準αの尤度比検定を求めよ。

帰無仮説が単純仮説の場合は簡単で、過去の記事で一度やっています。

medibook.hatenablog.com

ここに $\sigma=1, \mu_0=0$ を代入すればいいので

$\sqrt n\bar X\sim N(0,1)$ となります。（対立仮説から、片側検定であるためχ二乗分布ではなく正規分布に従うことを用いています）

よって棄却域は正規分布のα％分位点を $z_\alpha$ として

$\sqrt n\bar X\gt z_\alpha$ となります。

これは当然のことながら

$P(\sqrt n\bar X\gt z_\alpha)=\alpha$

となるので、解答となります。

単純仮説の場合は比較的迷うことなく分かります。

複合仮説の例

例題の条件を少し変えて考えてみます。

例題２：サンプル $X_1, X_2, ..., X_n\sim N(\mu,1)$ があるとする。ここで $\mu$ は未知のパラメータである。帰無仮説 $H_0:\mu\leq0$ 、対立仮説 $H_1:\mu\gt0$ とするとき、有意水準αの尤度比検定を求めよ。

複合仮説の場合は前述のように、有意水準αの検定というのは以下の条件になります。

$\sup_{\mu\leq0}P(検定の棄却域)=α$

なんでこうなるのか、多分分かる人には至極当然なんでしょうけれども、数学的センスのなさ故にさっぱりだったので、図をみて考えてみます。

f:id:medibook:20200711051832j:plain

先ほどの記事で使った図ですが尤度比検定はこの二つの差をみています。単純仮説の場合はμ＝０でしたので単純にそれを計算すればＯＫです。

複合仮説の場合はどうなるかというと

f:id:medibook:20200711051817j:plain

μは上図の範囲のどこかの値ということになります。

当然そうするとP(検定の棄却域)の値も変わってくるわけですが、大事なのはどこの時の値か、ということ。

定義式が示す通り、もっとも大事なのは一番大きい値です。棄却域に入る確率がせいぜい高くてもここまでと決まっていることが重要なんです。

例えば、有意水準をp=0.05としたとき、データを出してp=0.03で棄却することやp=0.04で棄却することは構いませんが、p=0.08を棄却されたら困るでしょう。一番大きい値を保証することが必要なので、定義としてその複合仮説で最も大きい値である上界を用いて $\sup_{\mu\leq0}P(検定の棄却域)=α$ とするわけです。

この前提に立って、さきほどの問題をみてみます。

単純仮説の場合に求めた棄却域を使って考えてみるとμ＝０のとき

$P(\sqrt n\bar X\gt z_\alpha)=\alpha$ となります。

この検定の棄却域を用いて、μの範囲が拡大した場合を考えます。 $\mu\leq0$ を条件としてμを定数としてとらえると

$\sqrt n(\bar X-\mu)\sim N(0,1)$

となります。これを利用しつつ、先ほどの検定の棄却域を保ったまま変形すると

$P(\sqrt n(\bar X-\mu)\gt z_\alpha-\sqrt n\mu)\\=P(Z\gt z_\alpha-\sqrt n\mu)$

ここでＺは標準正規分布に従う確率変数とします。

するとμは負であることから

$P(Z\gt z_\alpha-\sqrt n\mu)\leq P(Z\gt z_\alpha)$

となります。ここが分からない人は以下の記事を参照ください。汚い図で説明してます。

medibook.hatenablog.com

よって、確率上界がαであることが確認できたので、有意水準αの検定は

$\sqrt n\bar X\gt z_\alpha$

となります。単純仮説で示した値がちょうど確率上界であったので、同じになるのです。もちろんそうならない場合もありますし、どこが上界になるのかは注意が必要です。

ちなみに上記のp値の記事に若干嘘がありまして、p値の定義式も複合仮説の場合を含めて正確にいえば

$\sup P(ある検定統計量\gt実際の検定統計量の観測値|帰無仮説の条件)$

なのです。これも結局一番大きい値が大切なので、確率上界が用いられています。

参考文献：

現代数理統計学の基礎 (共立講座数学の魅力)

作者:達也, 久保川
発売日: 2017/04/07
メディア: 単行本

当サイトに掲載されている広告について

当サイトでは、第三者配信の広告サービス（Googleアドセンス、を利用しています。
このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報『Cookie』(氏名、住所、メールアドレス、電話番号は含まれません) を使用することがあります。
またGoogleアドセンスに関して、このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、こちらをクリックしてください。

当サイトが使用しているアクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。
このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。
このトラフィックデータは匿名で収集されており、個人を特定するものではありません。
この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。
この規約に関して、詳しくはこちら、またはこちらをクリックしてください。

当サイトへのコメントについて

当サイトでは、スパム・荒らしへの対応として、コメントの際に使用されたIPアドレスを記録しています。
これはブログの標準機能としてサポートされている機能で、スパム・荒らしへの対応以外にこのIPアドレスを使用することはありません。
また、メールアドレスとURLの入力に関しては、任意となっております。
全てのコメントは管理人であるmedibookが事前にその内容を確認し、承認した上での掲載となりますことをあらかじめご了承下さい。
加えて、次の各号に掲げる内容を含むコメントは管理人の裁量によって承認せず、削除する事があります。

特定の自然人または法人を誹謗し、中傷するもの。

極度にわいせつな内容を含むもの。

禁制品の取引に関するものや、他者を害する行為の依頼など、法律によって禁止されている物品、行為の依頼や斡旋などに関するもの。

その他、公序良俗に反し、または管理人によって承認すべきでないと認められるもの。

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

単純仮説/複合仮説の場合における有意水準αの仮説検定（例題付き）【統計検定1級対策】

単純仮説と複合仮説とは

有意水準αの検定とは

単純仮説の例

複合仮説の例