【統計応用・医薬生物学】カプラン・マイヤー推定値の信頼区間・Greenwoodの公式【統計検定1級対策】

今回はカプラン・マイヤー推定値の信頼区間を知るための分散の求め方をやってみようと思います。この分散の式はGreenwoodの公式と呼ばれています。

統計検定1級の教本にも紹介されていますし、導出の過程はほどほどの難しさなので、出題されてもおかしくはないのかなと思っています。

カプランマイヤー推定値と関連する内容なので、わからない人はこちらの記事も参考ください。

medibook.hatenablog.com

目次：

Greenwoodの公式とは
Greenwoodの公式の導出
参考文献

Greenwoodの公式とは

グリーンウッドの公式は以下の式のことを指します。カプランマイヤー推定値の分散、あるいは標準誤差を求めるための式です。

ある時点 $t_j$ におけるリスク集合を $n_j$ , その時点でイベント発生があった人を $d_j$ とすると

$Var[\hat S(t)]=[\hat S(t)]^2\sum_{j=1}^{k}\frac{d_j}{n_j(n_j-d_j)}$

あるいは

$se[\hat S(t)]=\hat S(t)\{\sum_{j=1}^{k}\frac{d_j}{n_j(n_j-d_j)}\}^{\frac{1}{2}}$

（推定量の分散なので標準誤差です）

となります。

Greenwoodの公式の導出

導出過程について丁寧に見ていきます。

①生存関数の対数を取る

まず、知りたいのは生存関数の分散です。

生存関数のカプランマイヤー推定値は

$\hat S(t)=\Pi_{j=1}^{k}\frac{n_j-d_j}{n_j}$

でした。

これの分散を両辺でとると

$Var[\hat S(t)]=Var[\Pi_{j=1}^{k}\frac{n_j-d_j}{n_j}]$

となりますが、積の分散を計算するのは容易ではありません。

そこで、和の分散に変えるために両辺の対数をとってから分散を見ていきます。

$log\hat S(t)=\sum_{j=1}^{k}log\frac{n_j-d_j}{n_j}\\Var[log\hat S(t)]=\sum_{j=1}^{k}Var[log\frac{n_j-d_j}{n_j}]$

こうすると $log\hat S(t)$ の分散を求める方向にいきますが、デルタ法を使えば最終的に対数を外した生存関数の分散が求められるので、問題はありません。この後でデルタ法が2回ほど使われるのでわからない人はこちらもご参考ください。

medibook.hatenablog.com

②二項分布に置き換えて考える

さて続いては先程の式の右辺である

$Var[log\frac{n_j-d_j}{n_j}]$

を求めていきますが、直接対数にしたものを求めるのは難しいので、ここもデルタ法を使う前提で

$Var[\frac{n_j-d_j}{n_j}]$

をまず求めます。

この式において $\frac{n_j-d_j}{n_j}=\hat p_j$ とすると

$\hat p_j$ はある時点 $t_j$ においてイベントが発生しない確率の推定値であると言えます。

ここで、真の確率を $p_j$ とすると、 $n_j$ は二項分布 $Bin(n_j, p_j)$ に従います。

よって分散は

$Var(n_j-d_j)=n_jp_j(1-p_j)$

となります。( $d_j$ は定数という扱いです)

ここから

$Var(\frac{n_j-d_j}{n_j})\\=\frac{n_jp_j(1-p_j)}{n_j^2}\\=\frac{p_j(1-p_j)}{n_j}$

となるため $\hat p_j$ を使って推定すると

$Var(\hat p_j)=\frac{\hat p_j(1-\hat p_j)}{n_j}$

と言えます。

なお、後で必要になるのですが平均は $E[\hat p_j]=\hat p_j$ となります。

③デルタ法を使う

あとはひたすらデルタ法の出番です。

確率変数Xとその平均μ、ある関数g(X)に関して以下の式が成り立ちます。

$V(g(X))\approx\{g'(\mu)\}^2V(X)$

たとえば、今回の例のようにg(X)=log Xとすれば

$V(log X)\approx\frac{1}{{\mu}^2}V(X)$

となります。

これをまず $Var[log\hat p_j]$ に適用して

$Var[log\hat p_j]\approx\frac{1}{{\hat p_j}^2}Var(\hat p_j)\\=\frac{(1-\hat p_j)}{n_j\hat p_j}$

となります。

$\hat p_j=\frac{n_j-d_j}{n_j}$ を代入して

$Var[log\hat p_j]\approx\frac{d_j}{n_j(n_j-d_j)}$

となります。

よって①の最後の式に戻ると

$Var[log\hat S(t)]=\sum\frac{d_j}{n_j(n_j-d_j)}$

となります。

求めたいのはS(t)だったので再度デルタ法を適用します。

すると

$Var[log\hat S(t)]=\frac{1}{\{S(t)\}^2}Var[\hat S(t)]$

となるので

$\frac{1}{\{\hat S(t)\}^2}Var[\hat S(t)]=\sum\frac{d_j}{n_j(n_j-d_j)}\\Var[\hat S(t)]=\{\hat S(t)\}^2\sum\frac{d_j}{n_j(n_j-d_j)}$

となり、最初の式が導出されます。

デルタ法（というかテイラー展開）の威力を改めて思い知らされますね。

(2021.11.22 一部に誤りがあったため変更しました)

参考文献

リンク

当サイトに掲載されている広告について

当サイトでは、第三者配信の広告サービス（Googleアドセンス、を利用しています。
このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報『Cookie』(氏名、住所、メールアドレス、電話番号は含まれません) を使用することがあります。
またGoogleアドセンスに関して、このプロセスの詳細やこのような情報が広告配信事業者に使用されないようにする方法については、こちらをクリックしてください。

当サイトが使用しているアクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。
このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。
このトラフィックデータは匿名で収集されており、個人を特定するものではありません。
この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。
この規約に関して、詳しくはこちら、またはこちらをクリックしてください。

当サイトへのコメントについて

当サイトでは、スパム・荒らしへの対応として、コメントの際に使用されたIPアドレスを記録しています。
これはブログの標準機能としてサポートされている機能で、スパム・荒らしへの対応以外にこのIPアドレスを使用することはありません。
また、メールアドレスとURLの入力に関しては、任意となっております。
全てのコメントは管理人であるmedibookが事前にその内容を確認し、承認した上での掲載となりますことをあらかじめご了承下さい。
加えて、次の各号に掲げる内容を含むコメントは管理人の裁量によって承認せず、削除する事があります。

特定の自然人または法人を誹謗し、中傷するもの。

極度にわいせつな内容を含むもの。

禁制品の取引に関するものや、他者を害する行為の依頼など、法律によって禁止されている物品、行為の依頼や斡旋などに関するもの。

その他、公序良俗に反し、または管理人によって承認すべきでないと認められるもの。

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

【統計応用・医薬生物学】カプラン・マイヤー推定値の信頼区間・Greenwoodの公式【統計検定1級対策】

Greenwoodの公式とは

Greenwoodの公式の導出

①生存関数の対数を取る

②二項分布に置き換えて考える

③デルタ法を使う

参考文献