脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

【統計応用・医薬生物学】カプラン・マイヤー推定値の信頼区間・Greenwoodの公式【統計検定1級対策】

今回はカプラン・マイヤー推定値の信頼区間を知るための分散の求め方をやってみようと思います。この分散の式はGreenwoodの公式と呼ばれています。

 

統計検定1級の教本にも紹介されていますし、導出の過程はほどほどの難しさなので、出題されてもおかしくはないのかなと思っています。

 

カプランマイヤー推定値と関連する内容なので、わからない人はこちらの記事も参考ください。

medibook.hatenablog.com

 

 

目次:

 

Greenwoodの公式とは

グリーンウッドの公式は以下の式のことを指します。カプランマイヤー推定値の分散、あるいは標準誤差を求めるための式です。

 

ある時点t_jにおけるリスク集合をn_j, その時点でイベント発生があった人をd_jとすると

 

Var[\hat S(t)]=[\hat S(t)]^2\sum_{j=1}^{k}\frac{d_j}{n_j(n_j-d_j)}

あるいは

se[\hat S(t)]=\hat S(t)\{\sum_{j=1}^{k}\frac{d_j}{n_j(n_j-d_j)}\}^{\frac{1}{2}}

 (推定量の分散なので標準誤差です)

 

となります。

 

Greenwoodの公式の導出

導出過程について丁寧に見ていきます。

 

①生存関数の対数を取る 

まず、知りたいのは生存関数の分散です。

生存関数のカプランマイヤー推定値は

\hat S(t)=\Pi_{j=1}^{k}\frac{n_j-d_j}{n_j}

でした。

 

これの分散を両辺でとると

Var[\hat S(t)]=Var[\Pi_{j=1}^{k}\frac{n_j-d_j}{n_j}]

 

となりますが、積の分散を計算するのは容易ではありません。

そこで、和の分散に変えるために両辺の対数をとってから分散を見ていきます。

 

log\hat S(t)=\sum_{j=1}^{k}log\frac{n_j-d_j}{n_j}\\Var[log\hat S(t)]=\sum_{j=1}^{k}Var[log\frac{n_j-d_j}{n_j}]

 

こうするとlog\hat S(t)の分散を求める方向にいきますが、デルタ法を使えば最終的に対数を外した生存関数の分散が求められるので、問題はありません。この後でデルタ法が2回ほど使われるのでわからない人はこちらもご参考ください。

medibook.hatenablog.com

 

②二項分布に置き換えて考える

さて続いては先程の式の右辺である

Var[log\frac{n_j-d_j}{n_j}]

を求めていきますが、直接対数にしたものを求めるのは難しいので、ここもデルタ法を使う前提で

Var[\frac{n_j-d_j}{n_j}]

をまず求めます。

 

この式において\frac{n_j-d_j}{n_j}=\hat p_jとすると

\hat p_jはある時点t_jにおいてイベントが発生しない確率の推定値であると言えます。

 

ここで、真の確率をp_jとすると、n_jは二項分布Bin(n_j, p_j)に従います。

よって分散は

Var(n_j-d_j)=n_jp_j(1-p_j)

となります。(d_jは定数という扱いです)

ここから

Var(\frac{n_j-d_j}{n_j})\\=\frac{n_jp_j(1-p_j)}{n_j^2}\\=\frac{p_j(1-p_j)}{n_j}

となるため\hat p_jを使って推定すると

Var(\hat p_j)=\frac{\hat p_j(1-\hat p_j)}{n_j}

と言えます。

 

なお、後で必要になるのですが平均はE[\hat p_j]=\hat p_jとなります。

 

③デルタ法を使う

あとはひたすらデルタ法の出番です。

 

確率変数Xとその平均μ、ある関数g(X)に関して以下の式が成り立ちます。

V(g(X))\approx\{g'(\mu)\}^2V(X)

 

たとえば、今回の例のようにg(X)=log Xとすれば

V(log X)\approx\frac{1}{{\mu}^2}V(X)

となります。

 

これをまずVar[log\hat p_j]に適用して

Var[log\hat p_j]\approx\frac{1}{{\hat p_j}^2}Var(\hat p_j)\\=\frac{(1-\hat p_j)}{n_j\hat p_j}

となります。

 

\hat p_j=\frac{n_j-d_j}{n_j}を代入して

Var[log\hat p_j]\approx\frac{d_j}{n_j(n_j-d_j)}

となります。

 

よって①の最後の式に戻ると

Var[log\hat S(t)]=\sum\frac{d_j}{n_j(n_j-d_j)}

となります。

求めたいのはS(t)だったので再度デルタ法を適用します。

 

すると

Var[log\hat S(t)]=\frac{1}{\{S(t)\}^2}Var[\hat S(t)]

となるので

\frac{1}{\{\hat S(t)\}^2}Var[\hat S(t)]=\sum\frac{d_j}{n_j(n_j-d_j)}\\Var[\hat S(t)]=\{\hat S(t)\}^2\sum\frac{d_j}{n_j(n_j-d_j)}

となり、最初の式が導出されます。

 

デルタ法(というかテイラー展開)の威力を改めて思い知らされますね。

 

(2021.11.22 一部に誤りがあったため変更しました)

 

参考文献