現代数理統計学の基礎 4章 問12
標準正規分布に従う確率変数の比を求める問題ですね。
昨日の記事で書いたように、分布関数に立ち戻って考えていきます。
確率変数の和と比(和の分布・畳み込み・比の分布の変数変換)【統計検定1級対策】 - 脳内ライブラリアン
まず、とすると
となります。ここでYの値が正か負かで場合分けをすると
よって、zの分布関数はX,Yの確率密度関数をそれぞれf(x), f(y)として
となります。
ここで、解答でも指摘されているように、正規分布の対称性からこの二つの項は実は等しいことがわかりますので(分からなくてもそのまま計算できますが)1つにまとめると楽です。
となります。
あとはこれをzで微分して
となり、標準正規分布同士の比がコーシー分布に一致することがわかりました。
またについてはZの確率密度関数から変数すれば簡単にわかります。
となるので、
よって
となります。
確率変数の和と比(和の分布・畳み込み・比の分布の変数変換)【統計検定1級対策】
最近は専門医試験のレポート期限が迫ってきたことや日本語で書かないといけない論文もあって、ちょっと更新ペースが落ちますが、ぼちぼちやっていきます。
確率変数の和と比について変数変換するとどのようになるか、といった問題も時々出ています。比についてはあまりまとめられているのを見たことがなかったので、まとめてみました。
目次:
確率変数の和・畳み込みを使う
Z=X+Yという確率変数がある時に、どうやってZの確率密度関数を求めるかを考えます。( X、Yは互いに独立とします)
通常とられる方法として「畳み込み」という方法があります。
何をやるかと言えば
①ヤコビアンが1になるような2変数に変換する
②片方の変数を全範囲で積分して同時確率密度関数→目的の確率密度関数を出す
ということをやります。
まず①ですが、Z=X+Y, W=Yとすると
X=Z-W
Y=W
なので、ヤコビアンは1になります。
そうするとz,wの同時確率密度関数は
となります。
よって
が目的の確率密度関数といえます。
話としてはわかりやすいのですが、最後の積分で計算式が煩雑となるのが問題点です。
確率変数の和・モーメント母関数を使う
もう一つの方法がモーメント母関数を使う方法です。これは求めたい確率密度関数やX、Yの確率密度関数のモーメント母関数がわかっているときに有効な方法です。
として求めることができます。
例として標準正規分布に従うX,Yの和を考えてみましょう。
なので
となります。
よって、であることがわかります。
正規分布における和の再生性と呼ばれる特性ですね。
確率変数の比
続いて、比について考えてみます。
とした場合、Zの確率密度関数はどうなるでしょうか。
この手の問題で困ったら、分布関数に立ち戻って考えるとうまくいくことが多い気がします。
となります。ここでYの値が正か負かで場合分けをして
そうすると、それぞれの値の範囲で同時確率密度関数を積分することでZの確率分布関数を求めることができます。
あとはこれをzで微分して
となります。
具体的な例として標準正規分布の比がコーシー分布となる、という問題があります。
確率分布同士のいろんな関係性がわかると面白いですね。
参考文献:
Ratio distribution - Wikipedia
比の分布が説明された英語版Wikipediaです
比の分布に関して書いてあるブログです、参考になりました
『現代数理統計学の基礎』
医療者の立場で“能力主義“について考える『実力も運のうち 能力主義は正義か?』レビュー
『これからの正義の話をしよう』で一時期日本でもしばらく話題になったマイケル・サンデルの新作『実力も運のうち 能力主義は正義か?』を読みました。
アメリカの政治・教育の話が主なので、その辺は日本人にとって理解しにくい部分もありますが、トランプ政権がなぜ誕生したのか、という話を皮切りに“能力主義”の問題点について分かりやすい例と実際のデータをたくみに用いながら指摘していきます。
読んでみると非常にハッとさせられる部分のある良書で、いつの間にか自分も“能力主義“の価値観に染まりきっているところがあることに気付かされます。それが全ていけないわけではないのですが、改めてその考えを見直してみる必要はありそうです。
ここで指摘されている“能力主義”とは何か、について要約しつつ、医療従事者としての視点からいくつかピックアップして内容を紹介してみたいと思います。
目次:
“能力主義“とは何か
まず本書で問われている“能力主義“ということはどういうことなのか。
本書によれば元々はマイケル・ヤングというイギリスの社会学者が『The Rise of the Meritocracy(=能力主義)』*1という本に書いた用語であるとしています。
このマイケル・ヤングは以下の問いを提起しています。
いつの日か階級間の障壁が乗り越えられて、誰もが自分自身の能力だけに基づいて出世する真に平等な機会を手にしたとしたら何が起こるだろうか?(『実力も運のうち 能力主義は正義か?』より引用)
「自分の能力だけに基づいて出世ができる」というのは本来望ましい状態であるはずです。
日本で言えば数年前に東京医科大学の受験で女子受験者を減点していた措置が問題となったことがありました。
東京医大、女子受験者を一律減点 男女数を操作か: 日本経済新聞
同じ能力(つまり、テストの点数)をもつ人が一方では合格し、一方では落とされるというのは通常誰もが納得できないことであると思いますし、これが問題であるところは間違い無いです。
では、この機会が平等になった後で生じる問題は何なのか。
本書で問題提起されていることは、ざっくりといえば、機会が平等になった上で、能力によって出世や報酬が得られることがあまりにも当然になりすぎると
「万人に機会は与えられているのだから、今の自分の状態は自分の責任だし、自分が頑張ったかどうかの問題だよ」
という思考が過度に正当化されしまうということです。
つまり
「高い地位、給料」=「頑張った証拠」
「低い地位、給料」=「頑張ってない証拠」
というレッテル貼りが促進されます。
さて、果たしてこれが本当かと本書は問うています。
アメリカのトップ大学であるアイビーリーグに含まれる大学に入学できる学生と所得との関係などを例に出しながら、いかに経済的要因が高い地位に結びつきやすいかを鋭く指摘しています。
そして、そうした要因で高い地位や給料が得られているにもかかわらず、それが自覚されずに、「高い地位にいる・良い大学に入っている=自分が頑張った証拠で、道徳的にも正しい」という意識が強まっていること、逆に「低い地位や大学に入れなかった人たち=頑張っていない、道徳的に間違っている」かのような屈辱を受けていること、が大きな問題となっています。
例としてアメリカの大統領選の動きが本書では主に説明されています。中道派リベラルのエリート(例としてオバマ大統領、ヒラリー・クリントン)が「アメリカは機会が平等であり、自分の努力次第で出世できる」という思想を語ることでこうした屈辱感をさらに煽ってしまったのに対し、トランプがアメリカの大統領となれたのはこうした屈辱を聞き入れているから、とされています。
さて、他にも本書でみられる能力主義の例について、医療従事者の側から見て、興味深かった点をピックアップしてみます。
病気になることはどこまでが自己責任か?
糖尿病、高血圧、脂質異常症などは生活習慣病というネーミングをされており、生活習慣が原因である疾患という意味を強く持っています。そこには、自分で決めるライフスタイル次第という意味も強く結びついていることが多いように感じます。また、喫煙やアルコールといった害のある習慣も、同様でしょうか。
そのためか、時折周囲の医療従事者や患者さんの家族に一部で以下のような言動がみられることがあります。
「糖尿病を放置したのだから、こうなったのは自己責任だよね」
「タバコをやめられないんだから悪い」
ある種その通りだと思う面はありますし、病気になっても懲りずに全く改善がない人に対してはどうしてこうなのだろうと思うこともあります。
では、こういった病気になる人というのは全部自分の責任なのでしょうか。
先程と同様に「健康=頑張った証拠」と捉えた場合に、能力と同じことが言えてしまう場合があります。本書中では、オバマケアに反対する共和党下院議員の以下のような発言を引用しています。
「彼らは健康であり、自分の体を保つためにやるべきことをやってきました。ところが現状では、これらの人びと、つまり物事を正しく行なってきた人びとが、自分たちの支払うコストがうなぎ登りに上昇しているのを目の当たりにしているのです」(本書より引用)
ここでは「健康な人=正しい行いをしている人」というレッテルが貼られ、同時に「不健康な人=間違った行いをしている人」と道徳的な決めつけが行われています。
実際には、健康の維持に社会経済的な要因も大きいことも繰り返し報告されています。普段から脳梗塞の領域でsocioeconomic statusと発症率の関連を調べた研究も多くみますし、一般書籍では少し前に読んだ『経済政策で人は死ぬか』*2でも詳しく述べられています。この本では不況とその経済対策の方法で打撃が多かったものへのセーフティネットがうまく作用しているかどうかで、健康状態が大きく変わることを主張しています。現在の日本でもコロナウイルスの影響で自殺者が増えている(特に若年)ことは、“健康=自己責任“ではない影響の例の一つではないでしょうか。
医師は得てしてそれなりに良い環境で育っている人も多く(自分もそうだと思います)、生活習慣に関して注意をするだけの余裕があることが多いので、こうした病気になることも少ないとは思います。そのためどうしようもなく生活習慣を改善できない社会的な状況を想像する力に欠ける人がいるのは良くないのではないか、と思っています。
まあ、医師も医師でストレスや過重労働で酒浸りになったり、食生活・睡眠が乱れることもあるわけですが、、、。
知識がないから病気になる?
生活習慣病=自己責任という発想で考えた時、知識がないから病気になるという点が強調される場合があります。
確かに患者教育のようにどういう生活習慣が問題なのか知識をつけることは一つの解決策だと思います。
自分もそう思っていましたが、本書で指摘されているのは「知識があれば、同じ意見になるわけではない」ということです。
本書ではテクノクラート(技術官僚)は大抵この「知識があれば正しい意見が導かれる」という奢りに陥りがちだと批判されています。
本書内で頻出するテクノクラート(technocrat)は定義は以下のようなものです。
Technocrat
an expert in science or technology who has a lot of power in or influence with the government or industry
(Cambridge Dictionary | English Dictionary, Translations & Thesaurusより引用)
要するに科学技術の専門家で政府に影響力を持った人ということですね。
本書で引用されているオバマ大統領がグーグルの従業員を相手に講演した内容を見ると、テクノクラートが持っているのは、どのようなビジョンなのかが明白に分かります。
主として人びとがー間違った情報を知らされているだけのことです。あるいは、人びとは忙しすぎます、子供を学校へ送ろうとしています、働いてもいます、十分な情報を手にしていません、つまり、世の中のあらゆる情報を選別する専門家ではありません。こうして、われわれの政治的プロセスは歪められてしまうのです。(本書より引用)
これは一見その通りだと思う部分もあるのですが、正しい知識を与えることで正しい意見に目覚めるとは限らないように思います。本書内の例では気候変動について「誇張されているかどうか」などの世論調査をしたところ、アメリカでは共和党・民主党支持者それぞれで高卒者と大卒者の意見を見た時、大卒者の方がむしろ意見の党派間のギャップが大きいという結果が出ていました。大卒者が“正しい知識“なるものを受けている前提になりますが、教育水準が高くても意見が一致するようになるわけではない一つの例になるでしょう。
健康問題も前述したように、知識を十分に持っているはずの医師が生活習慣病にかからないかと言われるとそうではないわけで、そういった病気がある人、あるいはそういった病気を放置している人に対しても、勝手な道徳的判断はせず、なぜそうなったのかその背景を考えてみる必要があるように思います。
不正をするほどの能力への渇望
本書では冒頭で有名私立大学の入学に対する不正がいくつも述べられています。アメリカでもそういった大学受験に対する非常に高額な斡旋業があったとは知りませんでした。合格させるための金額も数十万ドル〜120万ドルまでとんでもない金が動いています。それほどまでに、学歴という業績を得ることが重要ということなのでしょう。
業績を得ることで自尊心が大きく満たされ、業績がないと自尊心を大きく傷つけられるような構造があまりに過度になってしまうことも、不正を行うことへの誘因となることが考えられます。
つい最近も昭和大学の麻酔科で論文不正のニュースがありましたね。
昭和大講師、論文142本に不正 麻酔科、懲戒解雇に:東京新聞 TOKYO Web
「周りは黙認していたのか、止められなかったのか」などなど問題となる点は他にも多くあるでしょうが、これも論文という業績しか評価されず、それでのみ人としての“良さ“が評価されてしまうような構造の問題があるのではないかと感じました。
“能力主義”に対する答えは?
わかりやすい例を用いた鋭い批判が繰り広げられているので、実際に読んでみて欲しいのですが、結論として過度な“能力主義“に対してどうすれば良いのか。あまり明確な結論は出されていません。
マイケル・サンデル自体はコミュニタリアンと呼ばれる思想家で、個人が自律しているものという考えと、国家が中立であるという考えにやや批判的な考えをしています。上の例で見た通り、個人は自分の置かれた環境によって、価値観などにどうにもできない影響を受けることと、国家も例え科学的・技術的な知識があろうが中立的な概念というは十分にとれないことがわかります。
そこで、コミュニタリアンは名前の通りコミュニティ(共同体)という自分たちが生活を共にしている集団に着目し、共同体の中で共有される価値観(共通善と呼ばれる)を反映した政治を勧めています。*4
マイケル・サンデルは例えば、入試に関して「一定の成績以上のものを選抜して、後はくじ引きにする」というなかなかぶっ飛んだ案を出していますが、これのみが確実に正しいわけではなく、共同体の中で理性的に議論を行い導き出して納得するものなら良いのでしょう。上述された能力主義の批判を解消する方法としては確かに意味があるように感じられます。
能力があることを全て批判する本ではありませんが、知らず知らずのうちに能力と自己の責任の有効範囲をあまりに広く取りすぎていることに気付かされる一冊でした。健康、宗教、大学教育、政治とさまざまな話が並びますが、文章はわかりやすく面白いので、今までこういった本を読んでなくても入りやすい方だとは思ったので、ぜひ一度読んでみてください。
参考文献:
*1
*2
*3
1標本のt検定と対応のある2標本のt検定の式をできるだけわかりやすく見直してみる【統計検定1級対策】
統計検定1級の統計応用で時折出題されるt検定について、数式がたまにこんがらがるのでまとめ直してみます。
目次:
t分布とは
t検定がt分布に基づくものなので、まずはこちらを簡単に。
t分布は標本平均と標本分散(不偏分散)、真の平均値から導き出される分布です。
分布の式としては、標本平均を、標本分散を、真の平均値を、標本のサイズをnとして、以下のようになります。
「標本分散のみで導き出せる分布」というのがこの分布の素晴らしい点なのでまずはこれを覚えるのが良いのかなと個人的には思います。
ここで分子を、母分散を使って、標準正規分布に変換してみます。
さて、ここで母分散と標本分散の比がカイ二乗分布に従うことを使います。
などは以前にも記事を書きました。
この関係性を利用するとt分布は結局のところ、正規分布とカイ二乗分布(を自由度で割ったもののルート)で表されることがわかります。
この式が自由度n-1のt分布を表します。
t検定とは
t検定は検定統計量がt分布に従うことを利用した仮説検定の方法です。
上述の式からわかるように、標本分散があればt分布を表すことができるので、母分散がわからない場合に重宝されます。真の平均値は帰無仮説として設定されます。
ただし、大事な前提条件として「計測される標本の母集団が正規分布に従う」ということがあります。
統計検定1級2019年の統計応用問4では成立条件を説明することが問題となっており、他の過去問でもこのへんはたまに聞かれるので説明できるように覚えておいた方が良さそうです。
1標本のt検定
1標本のt検定では、ある標本の平均値が仮説として設定された平均値と等しいかそうでないかを検定します。
帰無仮説を、対立仮説をとすると
と標本平均と標本分散から求められる値(検定統計量)が自由度n-1のt分布に従います。
検定統計量の実際の値を計算し、自由度n-1のt分布におけるα%分位点を超えるかどうかを検定します。両側検定であれば
が示されれば、帰無仮説は棄却されます。
対応のある2標本のt検定
いわゆるstudentのt検定と呼ばれるものです。
「対応のある」 というのはつまり、比べる2つの集団の母分散が等しいことを意味します。この検定が成立するための前提条件は過去問で出ていましたので改めて確認すると
1、母分布が正規分布に従う(t検定全体の成立条件)
2、2つの標本の母集団の分散が等しい
3、それぞれの標本の測定値は互いに独立である
の3つになります。
式は1標本に比べると煩雑です。
まず、それぞれの標本のデータをそれぞれ
とします。標本平均はとしましょう。
帰無仮説は2つの標本間の平均が等しい、ということになるので、
となります。
さて、ここで検定統計量としてを使えないか考えていきます。
まず、の分散は標本平均の分布がそれぞれ
であることから分散は2つの和になることと、帰無仮説ではであることを利用して
となることがわかります。
よって、
となります。
そしての標本分散は「プールされた分散」を用いるため、以下の式で計算されます。
ここで、最初に述べたように母分散と標本分散の比がカイ二乗分布で表されることを利用すると
となります。
最初に述べたように、t分布は標準正規分布を分子に置き、カイ二乗分布を自由度で割ったもののルートを分母に置いたものですので、これらをドッキングすれば
となります。
あとは同様にして算出しα%分位点と比較すれば検定ができます。
【減少する】reduce/ decrease/ decline の違い【医学論文の英語表現】
今回は「減らす」「減少する」の意味をもつ単語reduce, decrease, declineについてみてみます。
目次:
単語の意味と共起表現
まずは原義からみてみます。
毎度おなじみCambridge Dictionary | English Dictionary, Translations & Thesaurusから引用しています。
・reduce
to become or to make something become smaller in size, amount, degree, importance, etc
・decrease
to become less, or to make something become less
この2つは原義を見てもほぼ同じことが書いてあるわけですが、reduceの方がより具体的な数値の類を規定されているように見えます。用例を見ていっても明確な違いが分かりにくい例が多いですが、こちらのサイトを参考にすると、どちらかといえばreduceの方は「(人が恣意的に)減らす」という意味合いがあるようです。
reduce・decrease・declineの違い!英語で減る・減らすの使い方
SkeLLでのコーパスをみてみると
主語もしくは目的語となる動詞にて関して(どちらも自動詞、他動詞両方を持つため主語と述語の共起表現が似通ってくる)
・reduce - amount, pressure, speed
などのより具体的かつ人が調整できるような数値があるのに対して
・decrease - temperature, mortality, population
などの人がより調整しにくいような大きな数値が少し目立ちます。
結構かぶっているものもあるので、厳密な区分けは出来なさそうですが、恣意的に変えやすいものかどうかは一つの指標になりそうです。decreaseの方が「人がどうこう」というより、やや客観的な感じがするのではないでしょうか。
・decline
to gradually become less, worse, or lower
一方“decline” についてはgraduallyがついているように、他の二つと比較して「徐々に」という意味合いが強くなります。
医学論文を含めた用例
・reduce
Over 5 days the daily prednisone dose was increased to 50–60 mg and then gradually reduced to 10 mg, followed by further reduction as tolerated.
(Br J Ophthalmol 2005;89:1330–1334. doi: 10.1136/bjo.2004.063404)
数値が変化していく到着点として"to"はこれらの同志と相性がいいですね。この例のような内服の量という意味合いでは人が明らかに調整できるものなのでreduceが合うかと思われます。decreaseだとちょっと客観的な感じがするのではないでしょうか。
A similar result was found in a study using checklists to reduce nursing errors in programming IV infusion pumps:
(Diagnosis (Berl). 2014 September ; 1(3): 223–231. doi:10.1515/dx-2014-0019.)
Aspirin reduced the 6 week risk of recurrent ischaemic stroke by about 60%
(Lancet 2016; 388: 365–75)
こちらも内服などの人の行為で減らすという意味合いになっています。
・decrease
During the first 72 h of stroke onset, the occurrence of false-negative DWI findings decreased significantly as time-to-MRI increased for the acute lateral medullary infarctions (P=0.014).
(J Clin Neurol 2(2):107-112, 2006)
これは客観的な事実として「偽陰性の所見が減った」という言い方になっていますね。
synthesis also hold a great promise as a future therapeutic strategy to decrease the residual cardiovascular risk mediated through lipoprotein(a)
(JAMA Neurol. 2020;77(10):1308-1317)
これなんかはstrategyがリスクを減らすということで、reduceでも良いように見えてきます。正直言って違いがはっきりとはわかりません。
The level of complement C3 was obviously decreased to 0.405 g/L, C4 was 0.031 g/L.
(Wang H, Su T, Kang L, Yang L, Wang S. Diffuse large B cell lymphoma in a preceding IgG4-related disease with kidney restricted lambda light chain expression: case report and literature review. BMC Nephrol. 2020 Jul 29;21(1):315.)
これも検査地の話なので「人が恣意的に絡む」ものでもなく、decreaseの方がしっくり来るのかなと思います。
・decline
declineは他の二つと異なり、圧倒的に名詞形ばかりでした。
The primary outcome was the rate of decline in the total score on the Amyotrophic Lateral Sclerosis Functional Rating Scale–Revised (ALSFRS-R; range, 0 to 48, with higher scores indicating better function) through 24 weeks.
(N Engl J Med 2020;383:919-30.)
ALSの重症度スコアは基本的に「徐々に」下がるものですね。
urate- lowering treatment with allopurinol did not slow the decline in eGFR as compared with placebo.
(N Engl J Med 2020;382:2504-13.)
eGFRも徐々に減少していくものなので、こうした時系列も含めて考えた「減少」についてはdeclineが適しています。
Individuals with pre-clinical biomarker changes are at risk for cognitive decline and may thus be excellent candidates for early intervention with disease-modifying therapies.
(Thijssen EH, Rabinovici GD. Rapid Progress Toward Reliable Blood Tests for Alzheimer Disease. JAMA Neurol. 2021;78(2):143–145. )
認知機能の低下もcognitive declineという単語でよく使われますね。これも基本的には緩徐であることを前提にしています。
Anti-MOG antibodies rapidly and continuously declined in all 16 monophasic patients with acute disseminated encephalomyelitis and in one patient with clinically isolated syndrome.
(Neurology 2011;77:580–588)
何とか動詞も探してみました。declineも人が恣意的に容易に調整できるような意味合いは薄いようで、抗体価に関して使われています。原義から考えてcontinuouslyのような持続的であることを示す単語とは相性が良いようです。
【医療統計YouTube】標準偏差とは?【第2回】
Youtube更新しました。
チャンネルはこちら
今回は分散・標準偏差についてです。
中高生ぐらいの頃に初めて分散という概念を聞いた時は「データのばらつきなんて求めて何になるのだろう」と何も感じていなかったのですが、統計的仮説検定、95%信頼区間といった医療統計で特に重要な概念に通じていくので、論文を読む上でも理解は必須だと思います。
ちなみに歪んだ分布だとSDが使いにくいと動画内で述べていますが、チェビシェフの不等式というものを使うと、歪んだ分布だとしても
平均を中心として
±2SD範囲内に少なくとも約75%のデータが含まれる
±3SD範囲内に少なくとも約89%のデータが含まれる
±4SD範囲内に少なくとも約94%のデータが含まれる
ということが言えます。大雑把なのでもっと多くのデータが含まれている場合もあり、あくまで目安程度ですね。
次回は歪んだ分布のばらつきの指標である四分位範囲(interquartile range; IQR)について、やっていきます。
現代数理統計学の基礎 4章 問23
今回は多項分布の問題を解きます。
まずは(1)から。
k番目の値が定まった時の条件付き確率関数を求める問題です。
なので
となります。
続いて(2)。共分散を求める問題ですね。
i<jとして
となります。
ここで
で、jについても同様であることから
となることがわかります。
あとはを求めます。
ここで以降の項は試行回数をn-2までとした多項分布の総和と同じであることが分かります。よってこれが1となるので
となります。
あとはこれを代入すれば
と証明できます。