脳内ライブラリアン

医療、健康、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

現代数理統計学の基礎 6章 問10-3

引き続き問10から(3)

 

σとμの不偏推定量を求める問題。

 

不偏推定量とは

 

E[\hat\theta (X)]=\theta

 

を満たす推定量のことでした。

 

(2)より2T/σがχ2乗分布に従うことが

わかったので

 

E[\frac{2T}{\sigma}]=2(n-1)\\E[\frac{T}{n-1}]=\sigma\\\hat\sigma=\frac{T}{n-1}

 

となります。Tの部分を代入して解とします。

 

μについては同様に(2)の結果を用いて

 

E[\frac{n(U-\mu)}{\sigma}]=1\\E[U]=\frac{\sigma}{n}+\mu\\\hat\mu=U-\frac{\hat\sigma}{n}

 

でした。Uの部分に代入して解とします。

現代数理統計学の基礎 6章 問10-2

気を取り直して引き続き6章の問10(2)。

 

これがなかなか面倒くさい問題ですね。

まずは同時確率密度関数で式を表します。

p.104より順序統計量の同時確率密度関数

n!×それぞれの確率密度関数の積なので 

 

f_{{x_{(1)}},{x_{(2)}},...,{x_{(n)}}}(x_{(1)},...,x_{(n)})\\=n!\frac{1}{\sigma^n}exp\{-\frac{n}{\sigma}(x_{(1)}-\mu)-\frac{1}{\sigma}\sum_{i=2}^n(x_{(i)}-x_{(1)})\}I(x_{(1)}\gt\mu)

 

となります。

ここで問題に合わせて変数変換します。

 

z_1=\frac{x_{(1)}-\mu}{\sigma},z_2=\frac{x_{(2)}-x_{(1)}}{\sigma},z_3=\frac{x_{(3)}-x_{(1)}}{\sigma},...,z_n=\frac{x_{(n)}-x_{(1)}}{\sigma}

 

X=の形に書き直すと

 

x_{(1)}=\sigma z_1+\mu, x_{(2)}=\sigma z_2+\sigma z_1+\mu,...,x_{(n)}=\sigma z_n+\sigma z_1+\mu

 

となるのでヤコビアンを求めると

 

J((z_1,z_2,...)→(x_{(1)},(x_{(2)},...)=\begin{bmatrix}\frac{\partial}{\partial z_1}(\sigma z_1+\mu)&\frac{\partial}{\partial z_2}(\sigma z_1+\mu)&...\\\frac{\partial}{\partial z_1}(\sigma z_2+\sigma z_1+\mu)&\frac{\partial}{\partial z_2}(\sigma z_2+\sigma z_1+\mu)&0&...\\...&...&...\end{bmatrix}\\=\begin{bmatrix}\sigma&0&0&...\\\sigma&\sigma&0&...\\\sigma&0&\sigma&...\end{bmatrix}\\=\sigma^n


この結果から変数変換をして
目的である「指数分布とχ2乗分布の積にわける」=
「独立かつそれぞれの分布に従うことの証明」をします。

f_z({z_1},{z_2},...,{z_n})=n!exp\{-nz_1-\sum_{i=2}^nz_i\}I(0\lt z_1)I(0\lt z_2\lt z_3\lt...\lt z_n)\\=ne^-n{z_1}I(z_1\gt 0)・(n-1)!exp(-\sum_{i=2}^nz_i)I(0\lt z_2\lt z_3\lt...\lt z_n)

前半の式
ne^{-n{z_1}}I(z_1\gt 0)
は指数分布に従うことが明らかなので
後半がχ2乗分布に従うことをモーメント母関数を用いて示します。

M(t)=E[e^{t・\frac{2T}{\sigma}}]\\=E[e^{2t・\sum_{i=2}^nz_i}]\\=\int_0^\infty dz_2\int_{z_2}^\infty d{z_3}...\int_{z_{n-1}}^\infty d{z_n}・(n-1)!e^{t・\frac{2T}{\sigma}}・e^{-\sum_{i=2}^nz_i}

(公式の解答では積分の左から二つ目が
z3になっていますがz2の誤植だと思います)

これを右端から順番に積分してみると


\int_{z_{n-1}}^\infty・e^{-2t\sum_{i=2}^nz_i}・e^{-\sum_{i=2}^nz_i}dz_n=\frac{1}{1-2t}e^{-(1-2t)z_{n-1}}


となり、z_{n-1}についても同様に繰り返していくと


E[e^{t・\frac{2T}{\sigma}}]=(n-1)!\frac{1}{(n-1)!(1-2t)^{n-1}}=\frac{1}{(1-2t)^{n-1}}


となります。
これは自由度2(n-1)のχ2乗分布の
モーメント母関数に等しいので、χ2乗分布に従うことが証明されました。

これで終わり。
Latexも多少はスムーズに書けるようになってきました。

はてなブログでLatexを使用する際のありがちなエラーまとめ【随時更新】

Latex使い始めたはいいですが、きちんと本で学ぶわけでもなく

はてなブログは一部記載方法が特殊なようなので

とにかくひっかかってます。

どこがいけないのか探すのも少しずつなので

これがとにかく時間かかる、、、。

というわけで今まで自分が引っかかった無残な痕を記録に残しますので

初めてLatexを使ってはてなブログに書いてみようという方は

ぜひご参考にしてください。

 

 

 

 

大括弧使ったとき、式が表示されない問題

例えばこれ

[tex:E[\sum_{i=1}^ka_{i}\hat{\theta_{i}}\]\\=E[a_{1}\hat{\theta_{1}}\]+E[a_{2}\hat{\theta_{2}}\]+...+E[a_{k}\hat{\theta_{k}}]

E[ ]などで大括弧を使うとき、式の終わりに\をつけないと

そもそも式が表示されません。

大括弧の閉じた部分が終わりと紛らわしいからのようです。

 

 

解決策:式の最後に\をつける

 

中括弧問題

中括弧ってそのまま使えんなーと思い

代わりに小括弧を二つつけてみたら表示されなかった。

 

 

できなかったときの例がこれ

[tex:\frac{1}{\sigma^n}exp(-\frac{1}{\sigma}\sum_{i=1}^n(x_i-\mu))

 

解決策:小括弧はやめて、それぞれ{ }の前に\をつける

 

不等号問題

>はそのまま使える、っていろんなネットのページに書いてあったんで

使ってみたら、なんか変なのになるではないですか。

 

はてなブログではできないらしいです。

ここのページのおかげで助かりました。

minus9d.hatenablog.com

 

 

できなかったときの例はこれ

I(x_1>\mu, x_2>\mu,...,x_n>\mu)

 

解決策:\gt, \ltに置き換える

 

ギリシャ文字の直後に文字を入れると認識できていない問題

文字を直後に入れると「どこまでがギリシャ文字やねん?」ってなってしまいます。

 

できなかったときの例はこれ

x_{(1)}=\sigmaz_1

 

解決策:半角スペースをsigmaのあとに入れればよい

 

行列で頭にamp;がついちゃう問題

&を入れると「見たままモード」の場合

式の頭にamp;なるものがついてしまいます。

できなかったときの例はこれ

J((z_1,z_2,...)→(x_{(1)},(x_{(2)},...)=\begin{bmatrix}\frac{\partial}{\partial z_1}(\sigma z_1+\mu)&\frac{\partial}{\partial z_2}(\sigma z_1+\mu)&...\\\frac{\partial}{\partial z_1}(\sigma z_2+\sigma z_1+\mu)&\frac{\partial}{\partial z_2}(\sigma z_2+\sigma z_1+\mu)&0&...\\...&...&...\end{bmatrix}

 

ネットで探すと解決策が書いてありますが

はてな記法に切り替えると大丈夫なようです。

 

解決策:そもそもの編集モードを切り替える

現代数理統計学の基礎 6章 問10-1

頑張ってLatex使って書いてみよう、という気持ちで問10。

 

指数分布の問題。

 

まず(1)、μとσの2つの母数に関しての十分統計量の問題。

 

定義関数を用いつつ、同時確率密度関数を出します。

あとからU=X(1)をくくりだすために一旦式の中に作り出します。

\prod_{i=1}^nf(x_i|\mu,\sigma)\\=\frac{1}{\sigma^n}exp\{-\frac{1}{\sigma}\sum_{i=1}^n(x_i-\mu)\}I(x_1\gt\mu, x_2\gt\mu,...,x_n\gt\mu)\\=\frac{1}{\sigma^n}exp\{-\frac{1}{\sigma}\sum_{i=1}^n(x_i-x_{(1)}+x_{(1)}-\mu)\}I(x_1\gt\mu, x_2\gt\mu,...,x_n\gt\mu)

 

 

これを変形して、i=1の部分を和からはじき出します

 

\frac{1}{\sigma^n}exp\{-\frac{n}{\sigma}(x_{(1)}-\mu)-\frac{1}{\sigma}\sum_{i=2}^n(x_{(i)}+x_{(1)})\}I(x_{(1)}\gt\mu)

 

Tは結局i=2のときから考えればよいので(i=1のときはX(i)-X(1)で0になる)

 

\frac{1}{\sigma^n}exp\{-\frac{n}{\sigma}(U-\mu)-\frac{1}{\sigma}T\}I(U\gt\mu)

 

となります。

これでU,Tが(μ,σ)の十分統計量であることが示されました。

 

Latexのエラーが出すぎて心折れてきたので

(たったこれだけの記事で1時間かかった・・・)

ここで終了します。

溜まったエラーたちをどこかの記事でまとめて放出します。

現代数理統計学の基礎 6章 問9

今まで手書きの汚い数式を晒してきたのですが

今後色々まとめなおしたりする時に

何だかんだでPCで数式を書けるようにする必要があることを

と思い直しまして。

 

結局スキャナでメモを読み取るのも面倒くさいのと

計算手書きでするときに書き間違えを気にしながらやると

スピードがかなり落ちるので

ここはひとつ、Latexを使って数式書くようにしてみようと思います。

Latexについても初めて学んだのでまたどこかで記事にしたいところです。

 

 

さて、問題は前回に引き続いて6章の問9。

線形推定量の問題。

 

(1)は線形推定量=θの 不偏推定量を示せばよいので

まず線形推定量の期待値を考えます。

 

E[\sum_{i=1}^ka_{i}\hat{\theta_{i}}]\\=E[a_{1}\hat{\theta_{1}}]+E[a_{2}\hat{\theta_{2}}]+...+E[a_{k}\hat{\theta_{k}}]\\=a_1\theta+a_2\theta+…+a_k\theta (\hat{\theta}は不偏推定量のため)\\=\sum_{i=1}^ka_i\theta

 

そうするとこの式の期待値=θとなればよいので

\sum_{i=1}^ka_i=1\

となることが分かります。

これが求めたい条件なので(1)は終わりです。

続いて(2)

線形不偏推定量の中で分散が最小になるものを求める問題。

いわゆる最良線形不偏推定量(Best Linear Unbiased Estimator, BLUE)を求めます。

おしゃれな名前ですね。

 

まず分散を式にします。

 

Var[\sum_{i=1}^ka_{i}\hat{\theta_{i}}]=E[\{\sum_{i=1}^ka_i(\hat{\theta_i}-\theta)\}^2\\=\sum_{i=1}^ka_i^2E[(\hat\theta_i-\theta)^2]+\sum_{i=1}^k\sum_{j=1}^ka_ia_jcov(\hat\theta_i,\hat\theta_j)\

 

ここでcov(\hat\theta_i,\hat\theta_j)=0\より

 

\sum_{i=1}^ka_i^2\sigma^2_i\

 

となります。

 ここで本文p128と同様にラグランジュの未定乗数法を使って

\sum_{i=1}^ka_i=1\ を制約条件として

 

H(a_1,a_2,...,a_k)=\sum_{i=1}^ka_i^2\sigma^2_i+\lambda(\sum_{i=1}^ka_i-1)\

 

これを偏微分して解くと

 

\frac{\partial H}{\partial a_i}=2a_i\sigma^2_i+\lambda a_i=0\

 

よって

a_i=\frac{\lambda}{2\sigma^2_i}\

 

これを制約式に代入して

\sum_{i=1}^k\frac{\lambda a_i}{2\sigma^2_i}=1\

\lambda=\sum_{i=1}^k2\sigma^2_i\

a_i=\frac{\sum_{j=1}^k{\sigma_j^2}}{\sigma_i^2}\

 

 これを用いて最良線形不偏推定量

\hat\theta^{BLUE}=\sum_{i=1}^k\frac{\sum_{j=1}^k2\sigma_j^2}{\sigma_i^2}\hat\theta_i\

となる。

 

 

このときの分散が

Var[\hat\theta^{BLUE}]=Var(\sum_{i=1}^ka_i\hat\theta_i)\\=\sum_{i=1}^ka_i^2\sigma^2=\frac{(\sum_{j=1}^k\sigma_j)^2}{\sigma_2^2}\

となります。

 

Latex初めて使うとミスに気づかなくてかえって時間かかりますね、、、。

ユヴァル・ノア・ハラリ大先生の3部作を読んで

通勤中にオーディオブックを聴いているのですが

数年前に買った「サピエンス全史 ユヴァル・ノア・ハラリ著」

にかなりはまりまして

何度か聞きこんだあと、続編「ホモ・デウス」続々編「21 lessons」と

出るたびに即買いしてました。

 

最近「21 lessons」まで聞き終えたので一度記事にまとめようと思います。

 

 

 

 

 

知らない方のために簡単に書くと

筆者は歴史学者なんですが、大局的な視点で

人間の全歴史(何万年も前から)を振り返り

過去の歴史→サピエンス全史

これから予測される人類の展望→ホモ・デウス

現在の課題→21 lessons

に焦点を当てて書かれた作品です。

 

これが思っていた以上に大きく

今を生きる自分の視点を変えてくれるんです。

 

あまりにも内容が広範に渡るので魅力はまとめきれないのですが

ざっくりと内容をまとめてみます。

 

 

 

 

①人類は狩猟採集民であった期間が最も長い

 

8万年近い間、人類は狩猟採集生活をしていました。

定住せず、必要な木の実や肉を狩って集めていたわけです。

紀元後が2000年ほどしかないことを思うと

この途方もない期間で身体の構造や仲間意識など

行動規範もこの生活に最適化していました。

 

この考え方は一種のトレンドなのか根拠が明らかになってきたからなのか

他の本でもよくみられます。

例えば「GO WILD 野生の体を取り戻せ!」

 

人間がもともと狩猟採集生活を主体とし

長距離の走行を得意としてきたことから

頭脳を活性化させるためにも運動が有用であることを述べています。

 

今まで知っていたことから覆されたのは

狩猟採集生活が現代の我々が思うようなひどい生活ではなかった、ということ。

確かにけがや病気のリスク、食事内容や生活の不安定性で

今に劣る面はあります。

しかしながら食事内容は健康的であり

現代の生活習慣病とは無縁で

長時間労働もないので穏やかに家族や仲間と過ごす時間が

十分に得られています。

 

さらに知的な面においても、天気の動きや植物・動物の知識など

生きることに必要な自分の周りのことについては

周囲の環境が複雑化した現代人よりは遥かによく分かっていただろうと思われます。

 

これがまず、前提となる話で主には「サピエンス全史 上巻」で

語られます。

 

 

②虚構の誕生

 

虚構って何だ、という話になると思いますが。

 

本書でいう「虚構」とは

人が大人数で集合して協力する際に必要となるもので

実在はしないけれど人々の信用の間で成立するもの、を指しています。

 

よく分からないと思うので具体例を挙げます。

 

代表的なひとつとしては「貨幣」

紙幣なんかは、それ自体は何の価値もない紙きれですが

人類が皆価値のあるものとみなして、信用を勝ち得ているがゆえに

貨幣は「虚構」のひとつとして成立します。

貨幣があるからこそ、多数の人間が価値の概念を共有し

物や人の交流が得られます。

 

他に本文で最初に挙げられているのは「会社」

会社は実在するものではありません。

つまり、ある会社の建物が壊されても、会社は存続しますし

会社員を根こそぎクビにしても、どこかの企業が買収して

作り直せば会社は存続します。

よって実在はしませんが、法的な手続きで会社を消すことは可能です。

これもすべて人からの信用によって形作られています。

 

あらゆる文化 や都市、法律、さらには国家も虚構のひとつです。

この虚構ができたことで、数千、数万、数億もの人間が互いに協力し

分業・専門化を進めていくことができるようになりました。

 

 

アルゴリズムによる未来

 

この「虚構」による協力関係・分業が

今日には世界中に広がっています。

 

それによって、身の回りのことについてすら

わからないことがほとんどです。

 

例えば、普段自分が使っている車やパソコンの仕組みを知っているかどうか。

どんな仕組みで動いていて、どう開発され、どこでどう組み立てられているのか。

スーパーで買い物するにしても、その食材はどこでつくられ

どのように運ばれてきているのか。

時に国境を越えて、これらは自分のもとへ届きます。

 

あまりにも複雑化する中で、ひとつ解答を出してくれるのが

機械学習によるアルゴリズムです。

今でもネット上で自分の興味のある記事や商品が知らないうちに

突き止められ、提示されたり

iphoneが次の動作を予測して提示してくれたりしていますが

これが今後も進んでいくと思われます。

 

そうなると、提示されたものを使っていけば

自分に合った、好きな情報や商品に囲まれて

生活をしていけるわけです。

 

これはある種、アルゴリズムによって支配される世界。

まだ完全に実現しているとは言えない以上

何故これがいけないのか、までは本書でも明示できていませんが

それが実現した世界として

オルダス・ハクスリーの「すばらしき新世界」を

例として提示しています。

 

余談ですが、哲学関係の何かの本でも例示されていて

以前に読んでみたことがあります。

 

すばらしい新世界 (光文社古典新訳文庫)
 

 

これは1932年に出版されたいわゆるディストピア小説

機械に支配され、健康と幸福(?)を謳歌する人類と

辺境の地に住む野蛮人を描いた話です。

なぜこの話の世界が居心地が悪く感じるのか。

考えてみることが解の一つになるかもしれません。

 

「21lessons」で触れられていますが

現代ですら、スマートフォン依存・常にネットにつながる環境によって

思考が常に浸食を受けています。

「虚構」を見抜いて自分で考える、ということは

常に思考に影響を受ける今では、厳密には不可能なことですが

少しでもその努力をするということは

誰にでも求められることかもしれません。

 

 

 

 

21 Lessons: 21世紀の人類のための21の思考
 

 

現代数理統計学の基礎 6章 問8

最近コロナコロナと言いすぎたので

また引き続き統計学の続きを。

 

次もベイズ法による事前分布・事後分布の問題。 

まずは(1) 

 

本文p124の最下段に記載ありますが

事後分布による推測は十分統計量がわかればよいので

まずポアソン分布の十分統計量を考えます。

同時確率密度関数から考えると

f:id:medibook:20200308161558p:plain

ということで母数λとxが関連するのはXの総和であることが分かります。

よって十分統計量xの総和=Yとすると

f:id:medibook:20200308193307p:plain

(下から2番目の式の(nλ)はy乗が抜けてました)

となり、そこから問7と同様に母数λに関連しない部分は

比例の記号を用いて無視できるので解答を得ます。

続いては(2)

 

(1)の形から事後分布はガンマ分布に従うことが分かります。

よって

f:id:medibook:20200308161959p:plain

となります。