【統計応用】95%信頼区間と2標本両側t検定【統計検定1級対策】

2016年の統計応用（共通問題）でこんな問題が出てました。

「2つのデータの95％信頼区間と2標本両側t検定の有意差の関係性を調べよ」

これって医療統計本の中では屈指の出来である（と個人的に思っている）「今日から使える医療統計（新谷歩著）」*1に出てきた話で、「95％信頼区間のエラーバーが重ならないこととp値（＝有意差）がどう関係するか」ということですね。

一応答えとしては

95％信頼区間が重ならない→有意差あり

95％信頼区間が重なる→有意差あるかないかは不明

となります。

図で書くとこんな感じ。

f:id:medibook:20210425061847j:plain

つまり、「95％信頼区間が重ならない」ことは「有意差がある」ことの十分条件ですね。ただ、必要条件ではない。

で、これが本当なのかどうかと思ってしまいますが、それを過去問と同じような例に沿いつつ、数学的にみてみようと思います。

問題設定

それぞれ独立した被験者をn人ずつ集め、AとBのそれぞれの処置を行います。結果は連続変数のデータでグループAのデータは $x_1, x_2,...,x_n$ となり、グループBのデータは $y_1, y_2,...,y_n$ となりました。

各グループの平均を $\bar x, \bar y$ 、不偏分散による標本標準偏差をそれぞれ $S_x, S_y$ とします。

5％の両側t検定を考えてみましょう。

実際に計算してみる

さて、まずは95％信頼区間が重ならないとはどういう状況かを数学的に表現します。

ここで $\bar x\leq\bar y$ としても一般性を失わないので、こう仮定します。

するとxの平均値＋95％CIとyの平均値-95%CIが重ならないわけなので、自由度n-1, 2.5%分位点の値を $t_{0.025,n-1}$ とすると

$\bar x+t_{0.025,n-1}\frac{S_x}{\sqrt n}\lt\bar y-t_{0.025,n-1}\frac{S_y}{\sqrt n}$

となります。

さて、次にt検定の検定統計量を考えてみると、サンプルサイズが同じという前提であるためプールされた分散は比較的小さくなり

$T=\frac{\bar y-\bar x}{\sqrt{\frac{S_x^2+S_y^2}{n}}}$

となります。

ここで先程の95％CIの不等式を当てはめると

$T=\frac{\bar y-\bar x}{\sqrt{\frac{S_x^2+S_y^2}{n}}}\\\gt \frac{t_{0.025,n-1}\frac{S_x}{\sqrt n}+t_{0.025,n-1}\frac{S_y}{\sqrt n}}{\sqrt{\frac{S_x^2+S_y^2}{n}}}\\=\frac{t_{0.025, n-1}(S_x+S_y)}{\sqrt{S_x^2+S_y^2}}$

「有意差あり」となる場合は

$t\gt t_{0.025,2n-2}$ ですので

$\frac{t_{0.025, n-1}(S_x+S_y)}{\sqrt{S_x^2+S_y^2}}$ と大小比較してみます。

t分布のパーセント表をみるとわかりますが、自由度は高ければ高いほど、同じパーセントでも値は小さくなっていきます。

よって

$t_{0.025,n-1}\gt t_{0.025,2n-2}$

ですね。

さらに

$\frac{(S_x+S_y)}{\sqrt{S_x^2+S_y^2}}$

については、 $S_x\geq0, S_y\geq0$ より

$(S_x+S_y)^2\geq S_x^2+S_y^2$

が成り立ちます。

よって

$\frac{(S_x+S_y)}{\sqrt{S_x^2+S_y^2}}\geq1$

ですね。

以上のことから

$t_{0.025,2n-2}\lt\frac{t_{0.025, n-1}(S_x+S_y)}{\sqrt{S_x^2+S_y^2}}\lt T$

が成立し、95％信頼区間が重ならなければ、2標本両側t検定の有意差ありになることが示せました。

参考文献：

*1「今日から使える医療統計」

リンク

当サイトに掲載されている広告について

当サイトでは、第三者配信の広告サービス（Googleアドセンス、を利用しています。
このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報『Cookie』(氏名、住所、メールアドレス、電話番号は含まれません) を使用することがあります。
またGoogleアドセンスに関して、このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、こちらをクリックしてください。

当サイトが使用しているアクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。
このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。
このトラフィックデータは匿名で収集されており、個人を特定するものではありません。
この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。
この規約に関して、詳しくはこちら、またはこちらをクリックしてください。

当サイトへのコメントについて

当サイトでは、スパム・荒らしへの対応として、コメントの際に使用されたIPアドレスを記録しています。
これはブログの標準機能としてサポートされている機能で、スパム・荒らしへの対応以外にこのIPアドレスを使用することはありません。
また、メールアドレスとURLの入力に関しては、任意となっております。
全てのコメントは管理人であるmedibookが事前にその内容を確認し、承認した上での掲載となりますことをあらかじめご了承下さい。
加えて、次の各号に掲げる内容を含むコメントは管理人の裁量によって承認せず、削除する事があります。

特定の自然人または法人を誹謗し、中傷するもの。

極度にわいせつな内容を含むもの。

禁制品の取引に関するものや、他者を害する行為の依頼など、法律によって禁止されている物品、行為の依頼や斡旋などに関するもの。

その他、公序良俗に反し、または管理人によって承認すべきでないと認められるもの。

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

【統計応用】95%信頼区間と2標本両側t検定【統計検定1級対策】

問題設定

実際に計算してみる