脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

現代数理統計学の基礎 5章 問7

あっさりした問題なので解答記事すら不要な気もしますが、復習がてらで書いてみます。

 

P(|X|\geq t)\leq \frac{E[g(X)]}{g(t)}

を示す問題ですね。

 

まずg(x)>0なのでマルコフの不等式から

P(g(X)\geq g(t))\leq\frac{E[g(X)]}{g(t)}

あとはg(x)=g(-x)の対称性とg(x)が増加関数であることを利用して左辺を変形すると

P(g(X)\geq g(t))=P(X\geq t, X\gt 0)+P(X\geq t, X\lt 0)\\=P(|X|\geq t)

となります。

現代数理統計学の基礎 5章 問8

ちまちまと「現代数理統計学の基礎」の忘れてる分野の解き直しを行ってます。色々忘れてますけど、やり直すたびに少しずつ理解が進むのは嬉しいことですね。

 

5章の問8は平均二乗収束を示す問題ですね。

 

確率収束を示す問題ではチェビシェフの不等式もしくは平均二乗収束を使うことが多いので、統計検定1級でも同様の解き方は結構役立つのではないでしょうか。

 

分散が分かりやすい、かつ不偏推定量の収束を示すなら、チェビシェフで良いと思うのですが、今回の問題のように複雑な形で不偏推定量ではない場合は平均二乗収束の方が良いんですかね。

 

式を見ていきますと

E[(\frac{2}{n(n+1)}\sum jX_j-\mu)^2]\\=\frac{4}{n^2(n+1)^2}E[\{\sum jX_j-\frac{n(n+1)}{2}\mu\}^2]\\=\frac{4}{n^2(n+1)^2}E[\sum j(X_j-\mu)\}^2]

 

さてここで、期待値の中はどうなっているかを和の記号をバラして具体的に見てみると

\{(X_1-\mu)+2(X_2-\mu)+...+n(X_n-\mu)\}×\{(X_1-\mu)+2(X_2-\mu)+...+n(X_n-\mu)\}

ですね。

 

そうなると

(X_1-\mu)×2(X_2-\mu)

みたいなのは期待値を取ると0になって消えることがわかります。これはシグマと期待値が出てくるときには結構よくある変形の手段ですね。

 

なので同じデータ部分を二乗したもののみが残ります。よって

=\frac{4}{n^2(n+1)^2}E[\sum j^2(X_j-\mu)^2]\\=\frac{4}{n^2(n+1)^2}\frac{1}{6}n(n+1)(2n+1)\sigma^2\\=\frac{2n+1}{3n(n+1)}\sigma^2

 

n→∞のとき、0に収束することがわかります。よって、μに確率収束することが示せました。

自炊用の裁断機としてデューロデックス200DXを買ってみた

ついに自炊用の裁断機を買ってしまいました。

 

f:id:medibook:20210718051449j:plain

デューロデックス200DXという大型裁断機です。

 

非常に便利でサクサク切れます。

 

意外と使用感を書いたページとか見つからなかったので、せっかくだから紹介しておきます。

 

目次:

 

なぜ本を自炊するのか

自分の場合は、まず自宅の本の置き場所が非常に少ないんですね。子どもに荒らされてしまうこともあり、奥まった部屋にある上、本棚も小さいものしかないのですぐにいっぱいになってしまいます。

 

加えて、普段本を読むのが主に通勤中で、毎回重い本を複数冊持つのも厳しい。特に何かの分野をまとまって勉強しようとするときに、ふと別の本に書いてあったことを思い出してチェックしたくなると、たくさん本がiPadに入っていた方がいいんですね。

 

そして自炊した書籍に対するiPad airの使いやすさも大きいです。以前記事に書きましたけど、「なんでも書き込める」「ノートの切り貼りも自由自在」「検索も可」とpdf化した方が使いやすい要素がてんこ盛りです。そんなわけで自炊が思わず進んでしまうわけです。

 

medibook.hatenablog.com

 

もともと自炊の際の裁断機は職場にある共有の裁断機を使っていたのですが、刃を変えてないため切れ味が悪くなってきていたり、切る場所の目安になるポインタもないので使いにくい、、、。

 

また、異動になったら使えなくなりますし、本をいちいち職場と家で運ぶのも面倒くさい。そこで、調べて裁断機を買うことにした、というわけです。

 

裁断機にはどんなタイプがあるか 

大まかには「ディスクカッター」「ペーパーカッター」と呼ばれるものと「大型裁断機」の2種類があるようですね。

 

 

ディスクカッターはこんな感じのやつです。利点と欠点を簡単に書くとこんな感じです。

 

利点・・・比較的小さくて軽量、安い

欠点・・・厚みのある本は切りにくい、不安定

 

分厚い本もたくさん裁断したい(むしろそういった本の方がpdf化したときに検索機能が活きる)ので、個人的には困ります。

 

そこで大型裁断機です。

 

本体の重みがあって(5kg〜10kg以上)ハンドルを押し下げて切るものが多いですね。 

 

利点・・・厚みがあっても切れる、安定している

欠点・・・高い、刃の交換がやや大変、場所を取る

 

厚い本が切りたいということがメインだったため、今回は大型裁断機タイプを購入しました。

 

デューロデックス200DXの感想

で、買ったのはこちらです。

 

A4サイズまでしっかり対応しており、18mmの厚みまでカット可能です。

 

文庫本なんかであれば一発で裁断できるものもありますね。

 

ここまでで個人的に最低限必要な要件は満たしていますが、さらにこれを選んでよかった理由として

①ハンドルを下げて縦置き収納が可能であること

②裁断の目安のライトがあること

③ハンドルロック機能がしっかりしていること

がありますね。

 

まず、横置きにするとこういった大型裁断機は場所を取りますが、これは縦置きにすると省スペースで収納できます。子どもが触りうることを考えると無闇に机の上などに置いておきたくないので、これがまず一つ気に入っている点です。他の裁断機は見たところ、このような縦置きができると書いてあるものは、調べた範囲でありませんでした。(単純にこう置くだけなら他のもできそうな気もしますが)

 

次に裁断時に目安となるライトがあること。

 

こんな感じで、裁断される場所の目安が赤いレーザーで表示されます。

f:id:medibook:20210717101546j:image

本がたわんでいると、押し切るときに多少ずれてしまうこともありますが、概ねこのポイント通りで上手に切れます。これがないと切れ目を薄く入れながら微調整がいるので面倒です。

 

そして、最後にハンドルロック機能ですね。収納した状態から使用するにはハンドルをちょっと押し下げながら解除のロックの金具を外すというふた手間動作があるので、3歳と1歳の子どもがいますが、やり方を見せなければひとまず良いかと思ってます。いずれにしても触れるところに置くつもりはないですが、、、。使っていなければロックが基本的にかかるので比較的安心できる設計です。

 

早速裁断しまくってみましたが、使いごごちは良好。

f:id:medibook:20210720051551j:plain

この調子でガンガン自炊して快適読書ライフしていきたいところですね。

 

刃替えが面倒とのレビューが散見されるので、またその時が来たら追記でもしようかと思います。

 

不偏分散の期待値と分散【統計検定1級対策】

2014年、2018年の統計数理でいずれも出題されており、重要なポイントではあると思われる不偏分散の期待値と分散の導出などを書きます。

 

目次:

 

不偏分散の期待値

まず前提として平均\mu、分散\sigma^2の分布をもつ確率変数Xから得られたn個のデータをX_1, X_2, ...,X_nとして標本平均を\frac{1}{n}\sum X_i=\bar Xとします。

 

不偏分散(あるいは標本分散とも)はS^2=\frac{1}{n-1}\sum(X_i-\bar X)^2と表されます。

 

では最初に不偏分散の期待値が母分散に一致することを確かめます。

 

 E[S^2]=\frac{1}{n-1}E[\sum(X_i-\bar X)^2]\\=\frac{1}{n-1}E[\sum(X_i-\mu)^2-\sum(\mu-\bar X)^2]

この期待値内の[ ]の変形はよく使われるので覚えておいた方が良いかもしれません。展開してみると一致することが分かります。

 

続いて変形していくと

\frac{1}{n-1}E[\sum(X_i-\mu)^2-\sum(\mu-\bar X)^2]\\=\frac{1}{n-1}E[\sum(X_i-\mu)^2]-\frac{n}{n-1}E[(\mu-\bar X)^2]

 

さてここで

E[\sum(X_i-\mu)^2]=n\sigma^2

E[(\mu-\bar X)^2]=\frac{\sigma^2}{n}(標本平均の分散を表すため)

となりますので、それぞれ代入して

(与式)=\frac{n}{n-1}\sigma^2-\frac{1}{n-1}\sigma^2\\=\sigma^2

となりました。

 

不偏分散の分散

さて、続いて不偏分散の分散を求めてみます。

 

直接求めるのはなかなか大変なので、既に確立された定理などを用います。

 

例えば不偏分散と母分散の関係はカイ二乗分布で表されることに着目してみます。

\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}

でした。

 

この点については過去に一度記事を書きました。

medibook.hatenablog.com

 

 

よって自由度n-1のカイ二乗分布の分散は2(n-1)なので

V(S^2)=V(\frac{\sigma^2}{n-1}\frac{(n-1)S^2}{\sigma^2})\\=\frac{\sigma^4}{(n-1)^2}2(n-1)\\=\frac{2\sigma^4}{n-1}

となります。

 

コクランの定理の考えに沿って、不偏分散がカイ二乗分布に従うことを示す方法もあります。

http://wwwa.pikara.ne.jp/yoshifumi/Statistics/Statistics-6.pdf

Cochran's theorem - Wikipedia

この辺が参考になります。どちらも例としてこの不偏分散の話が使われています。

 

期待値のところでもあったように

\frac{\sum(X_i-\bar X)^2}{\sigma^2}=\frac{\sum(X_i-\mu)^2}{\sigma^2}-\frac{\sum(\mu-\bar X)^2}{\sigma^2}\\\frac{\sum(X_i-\bar X)^2}{\sigma^2}+\frac{\sum(\mu-\bar X)^2}{\sigma^2}=\frac{\sum(X_i-\mu)^2}{\sigma^2}

と変形できますが、コクランの定理によれば

\frac{\sum(X_i-\bar X)^2}{\sigma^2}\sim\chi_{n-1}^2\\\frac{\sum(\mu-\bar X)^2}{\sigma^2}\sim\chi_{1}^2\\\frac{\sum(X_i-\mu)^2}{\sigma^2}\sim\chi_{n}^2

が成立します。

 

あとは上述した方法と同じですね。

 

不偏分散の一致性

こちらも以前出題されていたので、不偏分散が母分散に対して一致性を持つことをみてみようと思います。

 

確率収束についてみるにはチェビシェフの不等式を使うのがよくある方法です。

 

チェビシェフの不等式の導出はこちらで記事にしました。  

medibook.hatenablog.com

 

実際、不偏分散についてチェビシェフの不等式に当てはめてみると、任意のk>0に対して

P(|S^2-\sigma^2|)=\frac{V(S^2)}{k^2}\\=\frac{2\sigma^4}{k^2(n-1)}

となります。

 

n→∞のとき右辺は0となるため、不偏分散S^2は母分散\sigma^2に一致性を持ちます。

 

不偏分散の性質はこのようにちょっと工夫が必要で他の定理が絡む点が多く、問題が作りやすいのかもしれませんね。

ミシェル・フーコーの『臨床医学の誕生』を読んでみた①

久々に哲学者の本を読みつつ紹介してみます。

 

今回はもともと医師であったという点で何となく親近感の沸きやすい(?)ミシェル・フーコーを取り上げてみたいと思います。

 

以前に書いたニーチェと同様に「既存の価値観に疑ってかかる」ちょっとひねた感じのお話になるので、そういうのがむしろ好きな人はぜひどうぞ。

 

目次:

 

臨床医学の誕生』はどんな本か

今回読んでみる『臨床医学の誕生』は名前の通り、近代の臨床医学がどのようにして誕生したかを描いた本です。

 

さて、ここで医学というのはどのように発展してきたと想定するでしょう?

 

素朴なイメージとしては、人体についての知識が科学技術が発展するに伴って少しずつ増えてきて、そうすることで新たな検査や治療が生み出されて、人はより健康を維持できるようになってきた、というものではないでしょうか。

 

このように医学が健康という一定の目標に向けて、ずっと一直線に過去から現在に向けて進んできた、という考え方を否定するのがミシェル・フーコーという哲学者です。

 

近代の学問の成立条件を問う哲学者

ミシェル・フーコーはフランスで1926年に生まれ、1984年に亡くなった哲学者です。

 

特に初期〜中期の著作においてミシェル・フーコーは医学、心理学、経済学、生物学、言語学といった近代の学問がどのようにして成立してきたかを考え、展開しています。『狂気の歴史』『監獄の誕生』『言葉と物』といった著作が特に有名です。タイトルからも歴史、誕生など、学問の成立条件に焦点を当てたことが分かります。

 

ミシェル・フーコーが問いを立てた近代の学問たちは、どれも「人間」を対象とした学問であることが特徴です。それ以前の17世紀半ば〜19世紀初頭にかけての時代に準備され、その後急激に登場してきたことを指摘し、なぜそのようなことが成立したかの条件について考察しています。

 

具体的でないと、分かりづらいので『狂気の歴史』を例にとってみてみます。

 

『狂気の歴史』で描かれる精神疾患の誕生

ミシェル・フーコーはもともと父親も医者であり、自身も精神科医として働いていたことがありました。25歳ごろ、パリのサンタンヌ病院で働いていた臨床経験が一つこの著作に影響を与えているとされています。余談ですが、ゲイであったり、そのことで悩んで何度も自殺をしようとしていたり、こういった自身のアイデンティティも著作に影響は多くあるようです。

 

特に象徴的なエピソードが、当時フーコーが担当し、親しくなった22歳の患者にロボトミー手術が施されたことであるとされています。

ロボトミーとは - コトバンク

その患者は普段は物分かりが良いが、病気の症状が出ると手がつけられないほど荒れてしまい、薬の効き目はなく、自殺するような危険がある。そのためこの患者にロボトミー手術がなされたわけですが、結果として自己の意志を失ってしまいます。(なお、このような副作用のためロボトミー手術は現代では行われなくなっています)

 

これを目の当たりにして、ミシェル・フーコー精神科医になるのを辞めたそうですが、同時に精神医学・心理学の科学性について問題を感じ始めます。

 

こうした流れから出てくるのが『狂気の歴史』という著作です。

 

現代で「狂気」あるいは「狂った人」について考えてみると、こうした人はどういう扱いになるでしょうか。身の回りに「狂人」がいたら、とりあえず精神科か脳神経内科に来ると思います。実際に外来をしていると「急に様子がおかしくなったんです」といって来られる人はいます(時に脳炎であったり、2次性の認知症だったりするわけですが)。

 

狂人=精神疾患or脳の疾患、という式は現代なら誰もが暗黙のうちに持っている物だと思われますが、これはいつから立てられた式なのか。それを考察するのが『狂気の歴史』です。

 

フーコーによれば、かつては狂人も普通の人たちと同じように生活していたと言います。例えば、プラトンによると狂人は「神がかった」ようなもので、神が人間の意識を訪れた徴候という解釈がされていたり、その後のルネサンスの時代までは、普通の人たちと生活空間まで区別されることはなかったとしています。

 

これがどこから変化したかということに関して、フーコーは1656年に設立された一般施療院に着目します。これは当時の西欧で増加していた貧者を皆まとめて入れておくような監禁施設でした。まともに労働することができない者たちの一部として狂人もここに収容されます。

 

外では労働力とならないものを管理して労働させ、かつ暴動などに結びつかないように抑えておくという政治経済的な理由と、労働は神聖なものであるというマックス・ウェーバーが示したような宗教的理由によって、これらの人々は施設に収容されることで「非理性」のカテゴリにまとめられるようになります。

 

この頃の収容されたような人々は正気を失っているもので治療の対象ではなく、動物を飼い慣らすが如く、調教されるものとして扱われました。実際にパリ市民の見世物となっていたというから驚きです。

 

さらに、その後18世紀半ばから徐々に資本主義的な社会が発展すると、こうした人々も国にとって富を構成する要素の一つとなり、解放されることとなりました。その中で狂人だけが家族や社会にとって危険性があるということで取り残されていくことになります。

 

こうして狂人だけを収容する施設が出来上がることで、「正常」「狂気」の線引きがなされ、狂気は客体的な対象物として認識されるようになります。そこで初めて狂気が治療の対象となり、その人の主体性とは切り離された“モノ“として扱われるようになっていきます。一連の流れを図でまとめるとこんな感じでしょうか。

 

f:id:medibook:20210714045458j:plain

こうした社会的・経済的要因や狂気を客体と捉え直すことが変化の原因である、と捉えるフーコーの考え方に対し、一般的な理論は異なっていました。

 

その代表例となるのが、監禁されるだけの存在であった狂気が、精神疾患として治療の対象となる様を描いているフィリップ・ピネル(1745-1826)の逸話です。フランスのビセートルにあった監禁施設においてピネルは狂人たちを患者として、理性的な人間として扱ったことで知られています。具体的には以下のようなエピソードです。

 

クートンが立ち去った後に最初にピネルが解放したのは、「給仕人を殴り殺した」ことのある「凶暴な」イギリス人中尉であった。ピネルはこの中尉に、理性的にふるまうことを約束するなら、鎖を解き、中庭を歩く自由を与えると申し出る。この注意はこの条件を受け入れ、中庭を「走ったり、階段を上り降りしながら、絶えず<何と美しい!>と叫んでいた」。彼はその後二年間ビセートルにとどまったが、「もう発作的に暴力的になることはなかった。彼はこの施設に有益な人物となり、狂人たちに一種の権威をふるうようになった。自分なりに狂者たちを支配して、いわば番人となった」という。(『フーコー入門』中山元著より引用)

 

「理性的に扱うことで、人間性の解放をうたい、臨床医学・心理学の科学的発展によって治療すべき精神疾患が見出された」というのはフーコーによれば現代の視点から見た“神話“に過ぎないとされます。そうではなく、「社会が狂気=精神疾患とした」と考えられるわけです。

 

なんとなく現代にはこうしたフーコーと同様の考え方が染み渡っているためか(自分の性格かもしれませんが)上述したような“神話“を聞くと、個人的には胡散臭いと思ってしまいますけどね。

 

このように科学的で当然のように思える近代的な学問も、歴史的な様々な経緯が地層のように積み重なってできていることを探究する方法をフーコーは「考古学」と呼び、様々な学問の探究に応用していきます。代表的な著作である『言葉と物(1966)』『知の考古学(1969)』はまさにその理論を深めていったものと言えます。

 

意味の経緯を辿るという意味では、ニーチェの『道徳の系譜学』の影響を強く受けているとされています。ニーチェは善悪の概念がキリスト教の存在によっていつの間にやらひっくり返ってしまった、ということを説明していましたが、これも同じように“道徳“には歴史的な経緯が積み重なっていることを明らかにしたものでした。前にも記事を書きました。

【生きる目的が分からなくなってしまった人へ】フリードリヒ・ニーチェの思想③ - 脳内ライブラリアン

 

考古学の手法を使って近代の臨床医学がどのように誕生したかを調べたものが、今回題材としたい臨床医学の誕生(1963)』です。

 

さて、次回から『臨床医学の誕生』の中身を見ていきたいと思います。

 

参考文献:

それぞれの紹介はまた別記事で作ろうかと思います。下記の中では『フーコー入門』(中山元)が一番読みやすかったです。各著作の流れが順を追って説明されており、どういった考えと時代背景のもとに書かれていたかがざっと分かります。もっとカジュアルに読むなら構造主義全体を俯瞰する『寝ながら学べる構造主義』がおすすめです。

フーコー入門』中山元

ミシェル・フーコー 自己から抜け出すための哲学』慎改康之
ミシェル・フーコー 近代を裏から読む』重田園江著
 『寝ながら学べる構造主義内田樹
『生と権力の哲学』檜垣立哉 
 『論理学』エティエンヌ・ボノ・ド・コンディヤック著/山口裕之訳

周辺確率関数・条件付き確率関数・条件付き期待値・条件付き分散・全分散の公式【統計検定1級対策】

過去問を解いていて2回くらい概念がごちゃごちゃしたので、周辺確率密度関数と条件付き確率密度関数から条件付き期待値、条件付き分散をざっと定義まとめます。

 

周辺確率関数

まずは周辺確率関数から。X、Yを2つの確率変数の組として考えます。

 

同時確率関数は

f_{X,Y}(x,y)

で表されます。

 

このときyの周辺確率関数は

離散型確率変数の場合

f_Y(y)=\sum_{x=0}^\infty f_{X,Y}(x,y)

連続型確率変数の場合

f_Y(y)=\int_{-\infty}^\infty f_{X,Y}(x,y)dx

となります。

 

条件付き確率関数

条件付き確率関数は以下の式で定義されます。先ほどと同様の例においてX=xであるという条件のもとで

f_{Y|X}(y|x)=\frac{f_{X,Y}(x,y)}{f_X(x)}

となります。

 

条件付き期待値

条件付き期待値は条件付き確率関数に対して、そのまま期待値計算をすれば良いです。

離散型の場合

E[Y|X=x]=\sum_{y=0}^\infty yf_{Y|X}(y|x)

となります。

 

連続型では

E[Y|X=x]=\int_{-\infty}^\infty yf_{Y|X}(y|x)dy

となります。

 

条件付き期待値であることを明示するときは

E^{Y|X}[Y|X=x]

という書き方もするようです。

 

なお、よく用いられる変換として

E[Y]=E[E[Y|X]]

というものがあります。

 

実際中身を見てみますと

右辺=E[\sum_{y=0}^\infty yf_{Y|X}(y|x)]\\=E[\sum_{y=0}^\infty\frac{yf_{X,Y}(x,y)}{f_X(x)}]\\=\sum_{x=0}^\infty\sum_{y=0}^\infty f_X(x)\frac{yf_{X,Y}(x,y)}{f_X(x)}

ここでシグマを交換すれば

\sum_{y=0}^\infty\sum_{x=0}^\infty yf_{X,Y}(x,y)=\sum_{y=0}^\infty yf(y)\\=E[Y]

となります。

 

連続型の場合も同様に積分の順序を交換できれば成立することがわかります。

 

条件付き分散

続いて条件付き分散です。

定義としてはX=xの条件の時

V(Y|X=x)=E[(Y-E[Y|X=x])^2|X=x]\\=E(Y^2|X=x)-(E[Y|X=x])^2

となっています。

 

また全分散の公式というものがあり

V(X)=E[V(X|Y)]+V(E[X|Y])

という等式が成り立ちます。

 

どうしてこうなるのか右辺を分解してみてみます。

 

第1項は

E[V(X|Y)]=E[E[X^2|Y]-(E[X|Y])^2]\\=E[X^2]-E[ (E[X|Y])^2]

 

第2項は

V(E[X|Y])=E[ (E[X|Y])^2]-(E\E[X|Y])^2\\=E[ (E[X|Y])^2]-(E[X])^2

となり、足し合わせると左辺に等しくなることがわかります。

 

全部の確率や期待値、分散がわからないケースではこうした条件付き期待値や分散から求めることができるので、重宝されます。

 

参考文献:

 

シグマ計算を機械的に行うための3つの公式 | 高校数学の美しい物語

意外に難しい条件付き”分散” - ChunPom’s diary

 

【統計応用・医薬生物学】ロジスティック回帰分析の数式とAIC・カルバックライブラー推定量【統計検定1級対策】

2018年の統計応用・医薬生物学にロジスティック回帰の式とモデル選択について問題が出ていたので基本的な概観を書いてみます。

 

基本さえ押さえていれば計算が煩雑でないので、知っていれば結構簡単な問題だったと思うのですが、逆に数理的な背景を知らないとさっぱりです。統計応用はそのパターンが多いですね・・・。

 

目次:

 

一般線形モデル(general linear model)

ロジスティック回帰分析は一般化線形モデルと呼ばれるものの一種です。まずそもそも一般化線形モデルってなんやねんと思うわけですが、その前に一般線形モデル(general linear model)を見てみましょう。

 

知りたい数値である結果変数yとそれに影響を及ぼす説明変数x(x_1,x_2,...,x_p)として

y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+\epsilon

のような関係で見たモデルを一般線形モデルと言います。βはパラメータと呼ばれ、それぞれのxの影響の大きさに関連します。\epsilonは誤差項ですね。また右辺をまとめて線形予測子と呼ばれています。

 

この式に基づいて分析していくのは、いわゆる重回帰分析と呼ばれる方法になります。最小二乗法と呼ばれる方法でβを求めていきます。この辺は以前にも記事を書きました。 

medibook.hatenablog.com

 

一般化線形モデル(generalized linear model)とリンク関数

これに対してロジスティック回帰分析は一般化線形モデルと呼ばれるモデルの一種です。ロジスティック回分析では結果変数と説明変数が次のような関係になります。

 

log\frac{y}{1-y}=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p

 

左辺がロジット関数と呼ばれる関数の形になっています。左辺の関数の形をリンク関数と呼びます。これが先ほどの一般線形モデルのように、そのままyではないものが一般化線形モデルです。

 

このような結果変数・説明変数の式関係をもとに分析をするのがロジスティック回帰分析です。

 

結果変数・説明変数の関係性を線形予測子・リンク関数を用いてモデリングしますが、そのやり方によってモデルが変わるわけですね。

 

ロジスティック回帰分析と調整オッズ比

先ほどの線形予測子とリンク関数の式を色々と変形してみると、とても便利な形になっていることがわかります。まず結果変数yを左辺に持ってくるようにしますと

y=\frac{exp(\beta_0+\beta_1x_1+...+\beta_px_p)}{1+exp(\beta_0+\beta_1x_1+...+\beta_px_p)}

となります。この式から0<y<1であることがわかりますので、結果変数は確率を示すのに適していることがわかります。

 

よくあるのは2値データの起こる確率をロジスティック回帰で予測するというものですね。

 

結果変数をθとして治療で何らかの反応を示す確率としてみます。つまり、先ほどのyをθで置き換えて

\theta=\frac{exp(\beta_0+\beta_1x_1+...+\beta_px_p)}{1+exp(\beta_0+\beta_1x_1+...+\beta_px_p)}

とします。

 

得られたデータに関して反応があったときにy=1、ないときにy=0とすると

P(Y=1)=θ

P(Y=0)=1-θ

となります。

 

そうするとYは確率θのベルヌーイ分布に従う確率変数であることがわかります。

 

このとき、パラメータβの値が各説明変数のオッズ比の対数を取ったもの(対数オッズ比)を示しています。過去問でも出されていたので、それを確認してみます。

 

まず上述の条件の時、対数オッズは

log\frac{\theta}{1-\theta}=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p

となります。

 

さて、ここで疾患の反応確率に関わるある因子を持つ患者をx_1=1、因子を持たない患者をx_1=0としてみると対数オッズ比は

 log\frac{\frac{P(Y=1|X_1=1)}{P(Y=0|X_1=1)}}{\frac{P(Y=1|X_1=0)}{P(Y=0|X_1=0)}}\\=log\frac{\beta_0+\beta_1+\beta_2x_2+...+\beta_px_p}{\beta_0+\beta_2x_2+...+\beta_px_p}\\=\beta_1

となります。

 

よって\beta_1が対数オッズ比となることが分かりました。

 

ここから説明変数x_1が1増えるとオッズ比がどう変動するかがわかります。この時のオッズ比は他の説明変数を固定したときの変化を示しているため、調整オッズ比(adjusted odds ratio)と言われます。

 

赤池情報規準(AIC

これも問題に出ていたので触れておきます。

 

説明変数を選択する際に「データへの当てはまりの良さ」を優先すると当然ながら説明変数を増やせば増やすほど精度は良くなります。

 

ただ、説明変数があまりに増えると煩雑であったり、また次に得られたデータを予測する際には役に立たない可能性も十分あります。

 

そこで、「予測の良さ」に焦点を当てたときに、どの説明変数のモデルであれば良いのかを評価する規準の一つが赤池情報規準です。

 

以前その意味と導出に関しては記事を書きました。

medibook.hatenablog.com

 

 

式としては

AIC=-2log対数尤度+2×最尤推定を行なったパラメータ数

となります。

 

先ほどの例で考えますと、対数尤度はYがベルヌーイ分布を取ることを利用して導出できます。得られたデータがn個あるとして、それぞれについて

\theta_i=\frac{exp(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})}{1+exp(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})}

が成り立ちます。(i=1,2,3,...,n)

 

まず尤度関数は 

L=\Pi_{i=1}^n{\theta_i}^{y_i}(1-\theta_i)^{1-y_i}

 となります。

 

ここで

\theta^{y_i}=\frac{exp{y_i}(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})}{\{1+exp(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})\}^{y_i}}

であり

(1-\theta)^{1-y_i}=\frac{1}{\{1+exp(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})\}^{1-y_i}}

なので、対数尤度は

logL=\sum y_i(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})-\sum log\{1+exp(\beta_0+\beta_1x_{1i}+...+\beta_px_{pi})\}

となります。

 

よって、AICはβを\hat\beta最尤推定したとき

AIC=-2\sum y_i(\hat\beta_0+\hat\beta_1x_{1i}+...+\hat\beta_px_{pi})+2\sum log\{1+exp(\hat\beta_0+\hat\beta_1x_{1i}+...+\hat\beta_px_{pi})\}+2(p+1)

となります。

 

カルバックライブラー情報量

さて、これもまた問題に出ていたので触れてみますが、AICはカルバックライブラー情報量が小さくなるようにしてモデルの良さを評価する方法です。

 

カルバックライブラー情報量とは真の分布があると仮定したとき、モデルとなっている分布と真の分布の違いの大きさを数値化したものです。真の分布との“距離“とは厳密には違うようです(真の分布からモデルとなる分布を見るか、モデルとなる分布から真の分布を見るかで数値が変わるため)。

 

式としては真の分布をq(x), モデルとなる分布をf(x)としたとき、真の分布による期待値をとって

E[log\frac{q(x)}{f(x)}]

と表されます。

 

具体例として今回のようなベルヌーイ分布の場合を見てみます。

 

真の分布を確率θのベルヌーイ分布q(x)として、モデルとなる分布を確率πのベルヌーイ分布f(x)としてみると

E[log\frac{q(x)}{f(x)}]=E[logq(x)]-E[logf(x)]\\=\sum_{x=0}^1q(x)logq(x)-\sum_{x=0}^1q(x)logf(x)\\=(1-\theta)log(1-\theta)+\theta log\theta-(1-\theta)log(1-\pi)-\theta log\pi\\=\theta log\frac{\theta}{\pi}+(1-\theta)log\frac{1-\theta}{1-\pi}

となります。

 

これだけわかっていれば過去問も簡単に解けるのですが、範囲が広い分対処する自信が無くなりますね、、、。各分野のあんまり細かいところは出ない気がするのでそれなりに幅広く基本を理解しておく必要があるのかなと思ってます。

 

参考文献:

統計学入門−第10章

いつも参考にしてます。 

最近また読み直しましたが、一般線形モデルと一般化線形モデルの説明がとてもわかりやすいです。この辺りのレベルの話で数式だけでなく、図と文章を多用して説明してくれる本はとても貴重だと思うので、重宝してしています。
こちらも文章で説明が多く補われており、わかりやすいです。