脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

命の取捨選択<シアトルの神の委員会の話>

医療資源が限られているときに、どのように分配をするべきなのか。

 

コロナのワクチンをめぐって先日こんなニュースがありました。

www3.nhk.or.jp

 

いよいよ現実化してきているCOVID-19のワクチンの公平な分配に向けて各国協力体制に入っている様子。アメリカはここには参加していないようです。そもそも自国での開発が最も盛んで、”自国ファースト”を今まで掲げていることからは、まあそうだろうな、とは思います。

 

こうした限られた医療資源に関して、どう使うかというのは難しい話です。最近読んだ本『入門・医療倫理1』*1「シアトルの神の委員会」という興味深い逸話があったので、紹介しつつ、医療資源の分配と功利主義に関しての話を書きます。この逸話については「え、つい50年前にそんなことされてたの!」と驚きました。

 

目次:

 

シアトルの神の委員会

舞台は1960年代のアメリカ、シアトル。B.スクリブナーという医師が慢性腎不全患者に使う人工血管シャントを開発し、人工透析という手段を創り出しました。当時のアメリカでも透析の必要な慢性腎不全患者は数万人にわたり(現在の日本では約33万人)、需要は大量にあったわけです。

 

ただ、透析というのは機械とそれを管理できる人をもつ専門の施設でないとできません。その黎明期に施設が十分あったかと言えば、当然足りない。腎不全患者というのは透析ができなければ数日~数週間には亡くなってしまいます。

 

そこで、シアトルではどうしたか。まず、医学的見地から候補者を選び、それでもまだ受け入れしきれない数の候補者を、公平を期すために外部の委員会を作って選抜しました。それが「シアトルの神の委員会」です。聖職者、弁護士、主婦、労働組合の幹部、州の役人、銀行員、外科医の7人の会議によって誰を優先するかを決定していたのです。

 

候補者らの家族情報や職業情報が与えられ、それをもとに会議していたようで、その一部を抜粋してみます。生々しい会話です。

 

弁護士:まもなく透析センターでもう2名分の空きが出るそうです。医師たちにもらった5名の候補者リストから2名を選ばなければなりません。

主婦:彼らの病状はみな等しいのですか。

マレー医師:(透析センター長、医学的な助言を与えるためにオブザーバーとして委員会に参加している)。1番と5番の患者はあと2週間くらいしかもちません。あとの3人はおそらくもう少し大丈夫でしょう。しかし、別の医療施設が利用可能になるまで待つ人は誰もいないので、選択にあたってこの5名は等しく緊急なものとみなされるべきです。

(中略)

州の役人:しかし、航空整備士が職場復帰できるというのは確かなんですか。彼はすでに具合が悪すぎて働けないように思います。それに比べると2番の薬剤師と5番の会計士はともにまだ働くことができます。

労組幹部:この男性が働く航空会社は、障害を持つ労働者を職場復帰させるためにあらゆることを行う会社であることを私はよく知っています。

主婦:社会に貢献する可能性が最も高い人々は誰かということを考えるなら、薬剤師と会計士が5名の候補者の中で最も優れた教育を受けていることを考慮しなければなりません。

(中略)

銀行家:薬剤師と会計士は経済的な理由から除外してもいいかもしれません。二人とも相当の資産を持っていますから。

弁護士:二人とも死んだときに家族が社会の重荷になることがないよう準備できています。

州の役人:しかしそれだと、おそらく最も思慮深い人々に罰を与えることになるんじゃないですか。

(赤林朗ら著『入門・医療倫理1』より引用)

 

1時間半の会議を経て、最終的には小規模な会社の経営者と航空整備士が透析を受ける決定がなされました。

 

本人たちはいたって真面目に行っていることは感じられますが、直観的にはこの会議には違和感を感じますよね。全然関係ないですが、デスノートのヨツバ編の会議を思い出してしまいました。

 

ここでは、あくまでそれぞれの経験から形成された価値観に沿った根拠をもとに、命の選択がなされていきます。それがやはり違和感を感じる根本的な原因でしょう。

 

結局この会議はメディアに透析の必要性を訴えようとした経緯で明るみになり、批判を受けました。批判の矛先は資金をベトナム戦争や宇宙計画に振り向ける政府へと向かい、最終的には政府が資金を捻出することで、透析施設の不足は解決へと向かいました。

 

シアトルの神の委員会は、社会的な有用性をもとにした功利主義によって資源の分配を判断している例だと思います。そこで、医療に対して功利主義が使われる例を他にもみてみます。

 

功利主義的な医療資源の分配

社会全体の効用(要はどの程度利益があるか)をもとに考えるのが功利主義です。他に医療で功利主義がみられるものの例としてトリアージ「QALY」「DALY」の考え方も挙げられると思います。

 

トリアージ」は救急医療の現場(特に災害医療)で実際になされますが、時間や人員、薬剤など医療資源の制限があるうえで、どの患者が救えるかを考えて優先順位を決める方法です。助かる可能性が低い患者に蘇生処置を行うことは、回復する見込みが低いにも関わらずかなりの医療資源を要します。また、時間をおいても大きく問題のない軽症者の手当てに時間を割くことも、医療資源の浪費につながります。このように「最も多くの患者が生存できるようにする」=効用として行われるのがトリアージとなります。

 

「QALY(質調整生存年数)」や「DALY(障害調整生命年)」は、それぞれ生活の質(DALYは障害の程度)×その状態で生きていく年数を掛け算で出した指標です。

 

どういうことかと言えば、完全な状態で生きていく1年をそれぞれ1QALYや1DALYとします。質が通常の半分程度まで下がった場合、0.5QALYや0.5DALYとして考えて、計算を行います。

 

いずれも実際に使用される指標で、治療薬の効果や病気の負担がどの程度かを数値を用いて表すことができます。例えばDALYについて、50歳で脳梗塞を起こした人が半身まひになり、障害の度合いが完全な人と比べて0.2程度になってしまい、その後20年ほど生きた場合を考えると

0.2×20=4DALYs

となります。もともと障害なく20年生きられたとしたら、脳梗塞と言う疾病によって、16DALYsの損失となります。こんな感じに計算されるわけです。(wikipediaも参照)

質調整生存年 - Wikipedia

障害調整生命年 - Wikipedia

 

実際、イギリスの政府機関では薬剤などの医療の効果をQALYを用いて評価しています。さすがは功利主義の発祥の地ですね。経済的な指標の評価としては公的な分野で幅広く応用されています。*2

 

また、DALYについてはGlobal Burden of Diseaseという世界的な研究によってまとめられています。日本も含めたほとんどの世界各国のデータを集め、どの疾患がどれぐらいの負担を与えているかDALYで表しています。

Global Burden of Disease (GBD) | Institute for Health Metrics and Evaluation

 

1990年にWorld Bankが始めたものでしたが、のちにWHO, 上記リンクのIHME(ワシントン大学の研究機関)が中心となって行われています。主要な医療ジャーナルであるLancet誌に結果は載せられていますので、興味がある人は調べてみても良いかもしれないです。*3

 

こうして数値化をしてみると、主観的な印象と客観的なデータの違いというのが浮き彫りになります。初回研究では精神疾患と交通事故が思っていた以上に影響が大きかったことが明らかとなったため国としての方策も重視されるようになりました。

 

このように功利主義数値化での客観性や取扱いやすさで利点があります。さらに「各人を一人として数え、誰もそれ以上として数えない」という功利主義の祖ベンサムの考えが生きており、ある種の平等性がそこにはあるようにみえます。

 

功利主義的な医療資源分配の問題点

ただ、問題点が2つあります。まずは個人の単位でみたときです。

 

トリアージ」にしてみたときに、目の前で倒れていて助かる見込みが低いと判断され、治療されないのが自分の家族だったらどうか。

 

また「QALY」や「DALY」の例で考えると、自分の子どもが治療薬が高価だが、あまり良くならない疾患だった場合に、もっと治療が安価で良くなる疾患が優先されてしまいますが、その状況に納得できるでしょうか。

 

シアトルの神の委員会に違和感を感じたのも、こうした個人の事例で考えた際に生じやすいものだと思います。

 

もう一つは効用の測り方の問題です。

 

「QALY」や「DALY」で考えると、治療対効果は高齢者の場合はどうしても若年者に比べ劣ります。

 

例えば、片頭痛という病気の例でいくと、大部分は若年者ですが、生活の質や障害という意味での影響は寿命がまだ長い分、長期的に続きます。一方、高齢者が脳梗塞で倒れたときは障害は大きいものの、寿命から考えるとその年数としては短いので、ある意味この二者は同じ程度の「QALY」や「DALY」の損失と言えます。

 

…ですが、本当にそれを同じものとして扱ってよいかどうか。直観的にはこれも違和感を感じると思います。

 

また、「QALY」「DALY」の測り方が、健常者もしくは患者への多数アンケートによる推定で疾患による障害を点数化しているため、それを絶対の指標として良いかは議論の余地があります。

 

立ち戻ってコロナワクチンの話

*1の本では他に、自由平等主義、完全自由主義などが紹介されています。簡単に書いてみると、自由平等主義ロールズに代表される考え方で、社会効用ではなく「無知のヴェール」(自分の年齢・性別・職業など、自分がどの立場にいるかは分からないと仮定して、その上で条件を考える)に基づいた分配を考える方法です。完全自由主義市場経済の動きに任せて決めていく方法です。

 

最初のコロナワクチンの話に戻りますと、恐らくは高齢者と医療従事者が優先されてうっていく予定だと思いますが、これは重症化しやすい高齢者と感染リスクの高い医療従事者への費用対効果と医療崩壊を防ぐための功利主義的な発想です。その後は抽選となるのか、職業的に人と接触の多い職が優先されるのか分かりませんが、最終的な部分はある程度の自由平等主義に基づくのでしょう。

 

(※2020/9/5追記:ワクチンの分配と国内・米国各製薬会社の臨床試験の状況をまとめた素晴らしい記事がありました↓)

WEB特集 ワクチンは、あなたに届くか? | 新型コロナウイルス | NHKニュース

 

功利主義は皆が本当に納得できるものであれば良いのですが、客観的な指標を振りかざすことで、さも正しいかのような顔をする時もあります。実際にはワクチンの例のように様々な主義を組み合わせて使うことが通常です。功利主義の利点と問題点を自覚し、どこでどう組み合わせるべきかを考えることがこうした資源が限られるシチュエーションで役立つように思います。

 

参考文献:

*1

見た目から教科書的な本かと思いきや、現在の主要な医療倫理の項目を分かりやすく、簡潔にまとめてあります。上述のシアトルの神の委員会の話など、興味深い逸話も多くあるので、医療倫理に興味を持っている人にはお勧めです。シリーズものですがⅡも買ってしまいました。

*2

薬価の決まり方とその経済学的な影響を色んな視点から書いた本。超高額な薬価の薬が一体どうやって決まってくるのか気になったりしたので買いました。チャプターの中には各国の比較などもあります。

*3

Global, regional, and national burden of neurological disorders, 1990–2016: a systematic analysis for the Global Burden of Disease Studyh 

Lancet誌のGlobal Burden of diseaseの神経内科領域版の論文です。うれしいことにopen access。1990-2016年のデータベースがまとめられてます。日本はそれほどですが、片頭痛ってなんでそんな分子標的薬まで使ったりしてるんだろうと思ったのですが、米国は影響が結構大きいんだな、というのが分かりました。発展途上国では髄膜炎がまだまだ問題であったり、、、世界の様相が大まかに見えます。

small fiber neuropathyのreview articleをまとめてみた

今日は久々に専門的な話題を。

 

small fiber neuropathyについて調べる機会があったので、review articleを中心にざっと読みました。前々から気になっていた概念でありながら、あんまり日本語で良い文章を今まで見つけられなかったので、誰かの役に立てば、ということで載せてみます。

 

目次:

 

そもそもsmall fiber neuropathy(SFN)とはなにか

・神経線維は大径有髄線維Aα,Aβと小径有髄線維Aδ,小径無髄線維C=small fiberに分類される。

・このsmall fiberが選択的もしくは優位に障害されるのがsmall fiber neuropathy

・各神経線維の特徴と機能は下図参照

f:id:medibook:20200826121806p:plain

 (表1、文献1より引用)

 

small fiberの機能とそこから考えられる症状

 

・機能はおおまか以下のように分けられる。

【大径線維】触覚、振動覚、位置覚 

【小径線維】温覚、冷覚、痛覚(A-δ:刺すような、C:焼けるような)、自律神経機能

 

よって、典型的な症状としては「刺す/焼けるような痛み」「刺激による異常感覚」「自律神経徴候」に注目する必要がある

 

・効率的に症状を確認する質問票としてSFN Symptom Inventory Questionnaire(SFN-SIQ), SFN Screening List(SFNSL)などが検討されている。SFNSLは文献2のappendixに載っていたので以下に記載)。SFN-SIQはちょっと見つけられませんでした。

f:id:medibook:20200826122108p:plain

(文献2より引用)

・基本的に疾患毎で異質性が高いが、典型的な臨床像は以下の2パターン3

f:id:medibook:20200826121925p:plain 

(図1、文献3より引用)(左)length-dependentと(右)non-length dependent

length dependentパターンは典型的には糖尿病、耐糖能異常で、足だけに留まることが多い

non-length dependentパターン傍腫瘍性、免疫介在性、特発性でよくみられる

 

検査

・ベッドサイドでの感覚の検査としては触覚/温痛覚/冷覚に対しての反応が大事→「アロディニアや痛覚過敏(ベッドシーツがこすれるだけで痛い、など)」「冷たいものが温かく感じる」「刺激をやめてからも感覚が持続する」「刺激への感覚低下」など3

 

腱反射は低下しないことがあり、神経伝導検査が正常なこともある(大径線維の検査のため)→臨床的にはここが診断が難しいポイントかと思います。

 

・より客観的な検査としてQuantitative Sensory Testing(QST)皮膚生検などがある。ただ、専門施設でないと難しい検査が多い。うちの病院もできないのでちょっと想像つきにくいですね。

 

◇QST:温覚、冷覚、痛覚刺激などを行って、自覚したかどうかを知らせてもらい、感覚刺激を定量評価する検査。すみませんが見たことがないのでよくわからないです。

 

◇皮膚生検:表皮内の小径神経密度(intraepidermal nerve density; IENFD)、汗腺の神経支配や軸索腫脹の程度などを評価する。感度/特異度ともに90%に近く、QSTより優れる。

 

※他に、発汗機能をみるsudomotor functionの検査や、corneal confocal microscopy(角膜共焦点顕微鏡)で角膜のsmall fiberを診る、などがあるようです。どれも見たことがない・・・。

 

診断基準

・現時点でコンセンサスの得られた明確な基準はない

・例としてDiabetic Neuropathy Study Group of the European Association for the Study of Diabetesの基準4では糖尿病でのSFNの確定例(definite)は以下で定義。

①length-dependent symptoms、②small fiberの臨床徴候

③ QSTの異常とIENFDの低下and/or 腓腹神経のNCSは正常もしくは異常

 

・small fiber neuropathyの定義をsmall fiberに選択的な異常ととれば、NCSは正常という基準もあり得るよう。ただ、いずれの場合にしても皮膚生検による所見もしくはQSTが必須で(そうでないと客観性が担保されない)専門施設でないと診断はしにくい印象です。

 

・臨床的には診察所見からニューロパチーを疑うようであればNCSを行い

 正常である場合に、QST, 皮膚生検を考慮し、診断していく流れが推奨される。3

 

原因疾患

・原因疾患は多岐に渡り、精査しても30%-50%ほどは特発性となる。3

 

コロンビア大学のstudy5では末梢神経専門施設に特発性ニューロパチー(SFN合併症例が多いがすべてではない)として紹介された373名の患者全てに対し、皮膚生検、糖負荷試験(2時間)、各種採血検査を行ったが、診断は以下のようであった。

①特発性 32.7%

②耐糖能低下(impaired glucose tolerance; IGT) 25.3%

③CIDP 20%

④MGUS 7%

⑤中毒性(ビタミンB6, サリドマイド, ビンブラスチン,アルコール,アミオダロン)...

 

・ちなみに、ここで挙げられているIGTの定義は75gOGTT 2時間値が140-200mg/dlであること。「糖尿病」の診断基準は2時間値≧200mg/dlなので必ずしも「糖尿病」には当てはまらない。、、、となるとlength dependentパターンをとるようなニューロパチーであれば、A1cが高度でなくて、OGTTはやっとくべき、ということになるのでしょうか。

 

・具体的な鑑別疾患はこちら

代謝

糖尿病、IGT、慢性高血糖の急な補正時、甲状腺機能低下症、高TG血症、尿毒症

◇ビタミン欠乏

ビタミンB12欠乏

◇神経毒性物質への曝露、ビタミン中毒

アルコール、抗レトロウイルス薬、化学療法、有機溶剤、ビタミンB6中毒、スタチン

(報告レベル)フレカイニド、メトロニダゾール、リネゾリド、シプロフロキサシン、ボツリヌス中毒、タリウム、鉛、TNF-α阻害剤

感染症

C型肝炎HIV、インフルエンザ、ハンセン病、敗血症・critical illness

(報告レベル)EBウイルスヘルペスウイルス、マイコプラズマ、風疹、梅毒、狂犬病ワクチン、水痘、ライム病、B型肝炎

◇免疫関連

Autoimmune autonomic ganglionopathy, セリアック病、ギランバレー、monoclonal gammopathies,  ALアミロイドーシス、傍腫瘍、サルコイドーシス、強皮症、シェーグレン症候群、SLE、血管炎

◇遺伝性

家族性アミロイドポリニューロパチー、遺伝性感覚・自律神経ニューロパチー、ファブリー病、COL6A5(Naチャネル関連)遺伝子変異、ポンぺ病

◇特発性

(文献3より引用、和訳) 

 

参考文献:

  1. Sène D. Small fiber neuropathy: Diagnosis, causes, and treatment. Jt Bone Spine. 2018;85(5):553-559. doi:10.1016/j.jbspin.2017.11.002
  2. Hoitsma E, De Vries J, Drent M. The small fiber neuropathy screening list: Construction and cross-validation in sarcoidosis. Respir Med. 2011;105(1):95-100. doi:10.1016/j.rmed.2010.09.014
  3. Terkelsen AJ, Karlsson P, Lauria G, Freeman R, Finnerup NB, Jensen TS. The diagnostic challenge of small fibre neuropathy: clinical presentations, evaluations, and causes. Lancet Neurol. 2017;16(11):934-944. doi:10.1016/S1474-4422(17)30329-0
  4. Malik RA, Veves A, Tesfaye S, et al. Small fibre neuropathy: role in the diagnosis of diabetic sensorimotor polyneuropathy. Diabetes Metab Res Rev. 2011;27(7):678-684. doi:10.1002/dmrr.1222
  5. Farhad K, Khosro, et al. "Causes of neuropathy in patients referred as “idiopathic neuropathy”." Muscle & Nerve 53.6 (2016): 856-861. 

相関係数とその導出<共分散・ピアソン・スピアマン・ケンドール>【統計検定1級対策】

今回の記事ではピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数について、それぞれまとめて、式の導出と解釈を中心に説明します。

 

以前の記事と統合しつつ、追記しました。

相関係数①<共分散~ピアソンの相関係数まで>【統計検定1級対策】

相関係数②<スピアマンの順位相関係数の導出をわかりやすく>【統計検定1級対策】

 

目次:

 

相関係数とは何か?

そもそも、相関係数とは何なのか。相関係数は2つの確率変数どうしの関係性を示す数値です。

 

例えば、収縮期血圧と体重で考えるなら、色んな人から体重と収縮期血圧のデータの組み合わせをとってきます。そして、体重が増えるほど血圧が上がるのかどうかを、相関係数を使って調べます。(おそらく増えそうですね)

 

相関係数にはいろいろ種類がありますが、原則として

相関係数=0は無相関、相関がないことをしめす

■-1≦相関係数≦1の範囲におさまる

相関係数が+であれば正の相関(体重が増えれば血圧が増える)、-であれば負の相関(体重が減ると血圧が増える)を示す 

 

といったことが挙げられます。

 

では、具体的な相関係数にはどういったものがあるか。ピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数の3つを紹介していきます。

 

とその前に、式を理解するうえでは必要な共分散について簡単に触れておきます。

 

共分散の定義と式変形

相関係数を出すのに必要な共分散について、まず見直してみます。

 

共分散の意味とかはコチラなどをみて頂いたほうが分かりやすいかと思います。

共分散の意味と簡単な求め方 | 高校数学の美しい物語

 

ある確率変数XとYの共分散Cov(X,Y)は以下の式で定義されます。

 

Cov(X, Y)=E[(X-E(X))(Y-E(Y))]

 

これが定義式です。変形した形の方が使いやすいので、以下の形を使うことも多いです。後でまた出てきます。

 

Cov(X, Y)=E[(X-E(X))(Y-E(Y))]\\=E[XY+XE(Y)-YE(X)+E(X)E(Y)]\\=E[XY]-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\=E[XY]-E[X]E[Y]

 

ちなみに上で述べたようにXとYが無相関である場合(全然関連がない)は、最後の式変形でみるとE[XY]=E[X]E[Y]となるので、Cov(X, Y)=0となります。

 

ピアソンの相関係数

まずはピアソンの相関係数の式をみていきます。

 

ピアソンの相関係数とはパラメトリックな分布をとる(正規分布に従う)連続変数どうしの関連性を見る際に使われる相関係数です。ただ、「相関係数」と言う場合もこれを指します。

 

式としては分子に共分散、分母にそれぞれの標準偏差を持ってきます。

 

具体的な式として書くと

 

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

 

となります。

 

先ほど書いたように無相関のときCov(X,Y)=0なので相関係数も0となることが分かります。

 

またコーシーシュワルツの式↓を使うと

\sum_{i=1}^n(a_ib_i)^2\leq\sum_{i=1}^n a_i^2\sum_{i=1}^n b_i^2

以下の関係式が導き出せます。

Cov(X,Y)=\{E[(X-E(X))(Y-E(Y))]\}^2\leq E[(X-E(X))^2]E[(Y-E(Y))^2]

 

よってピアソンの相関係数は常に(分子の2乗)≦(分母の2乗)となるので-1~1の範囲に収まることが分かります。

 

あとは蛇足ですが、統計検定の問題に関わる話なので、ここからは特に興味がない方は読み飛ばしてもらって良いです。

 

標準偏差をnで割るか、n-1で割るか問題

統計検定の問題を解くうえでの注意事項は、分子の標準偏差をnで割るかn-1で割るかということ。n-1で割る場合は不偏分散ですが、nで割る場合は標本分散です。

 

この式はnで割ったものを提示しています。というのも上記の式の共分散の定義は、期待値を用いている(期待値はnで割っている)ことから分かるように、標本分散と同様にnで割ったものだからです。

 

実際、分子分母間で統一されていれば、結局全部約分されるので、nでもn-1でもどちらでも同じです。ただ両方で統一しなければいけません。

 

スピアマンの順位相関係数

スピアマンの順位相関係数とは、ノンパラメトリックな2変数に対して、相関関係を示す場合に使われる相関係数です。

 

ピアソンの相関係数はY=aX+bのような線形モデルに対しての相関に使えますが、非線形モデル(Y=X^2とか)でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。

 

式としてはn組の(X,Y)のデータに対して

\rho=1-\frac{6}{n(n^2-1)}\sum_{i=1}^n(X_i-Y_i)^2

となります。

 

統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。

 

やっていることは単純で、まずは確率変数X, Yを1位~n位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。

f:id:medibook:20200828051736j:plain

あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんですが、、、結構面倒です。

 

前回使ったピアソンの相関係数の式をみてみます。

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

このままだと代入しにくいので、もう少し分かりやすく変形してみます。

 

まず、分子は共分散の式を用いて

Cov(X,Y)=E[XY]-E[X]E[Y]

となるので

r=\frac{E[XY]-E[X]E[Y]}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}\\=\frac{\sum X_iY_i-nE[X]E[Y]}{{\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}}}・・・①

と変形できます。

 

さて、次にこの中で求められる数値を準備します。

XやYの期待値は順位の総和をnで割れば得られるので

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

となります。

f:id:medibook:20200828052325j:plain

先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが\sum X_i^2, \sum Y_i^2は1~nまでの二乗和になるので

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

となります。

 

スピアマンの相関係数の式をみてみると

\sum(X_i-Y_i)^2

という形があることがわかります。

 

なので、これをうまいこと作り出す準備をします。

\sum(X_i-Y_i)^2=\sum X_i^2+\sum Y_i^2-2\sum X_iY_i\\\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

こう変形できます。

 

必要なものを再度まとめ直すと

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

 

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

 

\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

 

の3つです。

 

あとは①の式の分子と分母についてそれぞれ見ていきます。

 

まず分母については、展開をして

\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}\\=\sqrt{\sum(X_i^2-E[X]^2)\sum(Y_i^2-E[Y]^2)}\\=\sum(X_i^2-E[X]^2)\\=\sum X_i^2-nE[X]^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2\\=\frac{1}{12}(n^3-n)

となります。

 

続いて分子は

\sum X_iY_i-nE[X]E[Y]\\=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2-\frac{1}{4}n(n+1)^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2-\frac{1}{2}\sum(X_i-Y_i)^2\\=\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2

 

分母と分子を合体させると

\frac{\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2}{\frac{1}{12}(n^3-n)}=1-\frac{6}{(n^3-n)}\sum_{i=1}^n(X_i-Y_i)^2

 

これで最初の式

\rho=1-\frac{6}{n(n^2-1)}\sum_{i=1}^n(x_i-y_i)^2

が得られました。

 

(2021.02.23式の変形を追記しました。途中の式どころか、相関係数の式まで間違って書いてありました、すみません。)

 

ケンドールの順位相関係数

最後に紹介するのはケンドールの順位相関係数です。

 

これもスピアマンと同様にノンパラメトリックな確率変数どうしを扱う場合の方法となります。

 

スピアマンの相関係数でやっていたことは

「数値データを順位データに変換」→「そのままピアソンの相関係数の式に当てはめる」ということでしたが、ケンドールはもう少し違う方法をとります。

 

イメージとしてはアナログに総当たりさせて、X,Yの順位の相関性をみます。

 

まずはスピアマンと同様に順位データを考えます。例えば、先ほどのこのデータで考えてみましょう。

f:id:medibook:20200828053651j:plain

まずX=5位とX=4位のデータの順位の差をみたときに

Xの差=5-4=1であり、Yの差=5-1=4、とそれぞれのデータの大小関係が一致しています。正の相関がありそう、という推測に繋がります。

 

ところが、X=4位とX=3位を比べてみると

Xの差=4-3=1であり、Yの差=1-4=-3となってしまうため、データの大小関係がXとYで逆転しています。これは負の相関がありそう、という推測に繋がります。

 

これらをすべてのデータの組み合わせで総当たりでさせて、どちらの傾向が大きいのかを数値化したのがケンドールの順位相関係数です。

 

上記の一つ目の例のように、XとYの大小関係が一致するデータを順方向、二つ目の例のように一致しないデータを逆方向と呼び、その差を分子にもってきて、式を作ります。

 

よって、式としては、総データ数をnとして

 

τ=(順方向データの数)ー(逆方向データ数)/_nC_2

 

と言うことになります。数学的な式で書くと、定義関数I(カッコ内の条件を満たせば1、満たさない場合は0とする関数)を用いて以下の式になります。

 

\tau=\frac{\{\sum_{i\lt j}I\{(x_i-x_j)(y_i-y_j)\gt0\}-\{\sum_{i\lt j}I\{(x_i-x_j)(y_i-y_j)\lt0\}}{_nC_2}

 

無相関の場合、順方向・逆方向のデータ数は一致すると思われるので、0となります。また、順方向・逆方向ともに上限値はnとなるので-1~1の範囲で相関係数は動きます。

 

ケンドールの順位相関係数の分散

超長い蛇足すぎたので、別記事にしました。興味のある方はどうぞ。

medibook.hatenablog.com

 

スピアマンの順位相関係数とケンドールの順位相関係数の使い分け

ピアソン相関係数でもそうですが、スピアマンの順位相関係数も有意性の検定を行うこともできます。方法はいくつかあるようで、サンプル数がある程度ある場合(10以上くらい)t分布、正規分布などへの近似を使うことが多いようです。

 

ただ『統計検定1級対応 統計学』によると、サンプル数が少ない場合は正規分布への近似がイマイチなようで、そういう場合はケンドールの順位相関係数を使うようです。あまり細かな使い分けは一般的にはないとされています。

 

 

参考文献: 

ケンドールの順位相関係数 | 高校数学の美しい物語

統計のみならず、数学的な事項について分かりやすくまとめてあります。

スピアマンの順位相関係数 統計学入門

参考にさせていただきました、、、が途中の式が若干間違っていました。

 

検定の教本です。各事項がコンパクトすぎるのでノンパラの相関係数について触れられているのは、2ページほどです。

ケンドールの順位相関係数の仮説検定・分散の導出方法

ケンドールの順位相関係数の有意性を仮説検定する際には、分散が必要となってきます。『統計検定1級対応 統計学』には分散は書いてありますが、導出はかいてありませんでした。

 

導出について書いてあるサイトもほぼなく、こちらに書いてあった文献(ケンドールの順位相関係数 | 高校数学の美しい物語)を辿って、分かりやすい導出をようやくみつけることができました(参考文献に載せます)。計算練習にもなるのでせっかくなので紹介します。結構長いので紙を用意していただいたほうが良いかもしれません(汗

 

相関係数の概要についてはまずこちらの記事をご覧ください。

相関係数とその導出<共分散・ピアソン・スピアマン・ケンドール>【統計検定1級対策】 - 脳内ライブラリアン

 

目次:

 

まずケンドールの順位相関係数の平均は0で、分散は

Var(\tau)=\frac{2(2n+5)}{9n(n-1)}

となります。

 

この結果の話はどこでも書いてあるんですが導出はあまりないので、以下の順番で証明してみます。結構長いです、、、。気長にお付き合いください。 

 

①ケンドールの順位相関係数の式を変形する

まず、ケンドールの順位相関係数の式を計算しやすいように少し変形します。

 

(逆方向データ数)=Qとして、相関係数が-1~1の範囲をとるように組みなおしてみると、相関係数τの式は次のように表現できます。

 

\tau=\frac{_nC_2-2Q}{_nC_2}

 

順方向データ数と逆方向データ数(=Q)の総和は_nC_2となることから

(順方向データ)=_nC_2-Qなので

分子を変形すれば上記の式が成り立つのが分かると思います。

 

さて、ここからは具体的に考えたほうが分かりやすいので、こんな感じの確率変数X,Yの順位データで考えてみます。 

f:id:medibook:20200828053651j:plain

 

②変数iを定義する

まず、X=jのときに、順位が逆転しているYの数をi_jとして定義します。つまり、逆方向データの数です。具体例を出してみるとこんな感じです。

 

f:id:medibook:20200829065930j:plain

j=5のときは順位の逆転はないのでi_5=0となります。

これに対して次にj=4の場合をみてみます。

f:id:medibook:20200829070338j:plain

3つも逆転してますね。i_4=3ということになります。

 

さて、このように見ていくと、i_jの総和が逆方向データ数(=Q)になることが分かるかと思います。

 

つまり式にすると

\sum_{j=1}^ni_j=Qであり0\leq i_j\leq j-1

となります。

 

ここまでで定義はできたので、あとはひたすら計算です。

 

③τの分散を導き出す

求めたいのは、以下のτの分散でした。

\tau=\frac{_nC_2-2Q}{_nC_2}

 

右辺の変数はQだけで、あとは定数なので実はQの分散が求まれば、τの分散も求められることが分かります。

 

分散の公式より

Var(Q)=E[Q^2]-(E[Q])^2なので、あとはせっせと計算します。

 

①Qの期待値を求める

ちなみに、今回の分散を求める目的は仮説検定なので

帰無仮説:τ=0で無相関である】

を前提にして、分散を考えていきます。

 

まず帰無仮説の下では、i_jは無相関のため、完全にランダムに形成されると考えられ、E[i_j]=\frac{j-1}{2}となります。

 

すると、まずE[Q]は

E[Q]=E[\sum i_j]\\=\sum\frac{j-1}{2}\\=\frac{1}{2}_nC_2

となります。

 

②Qの二乗の期待値を求める

次にE[Q^2]を考えると

E[Q^2]=E[\sum_{j=1}^n\sum_{l=1}^ni_ji_l]\\=E[\sum_{j=1}^ni_j^2]+E[\sum_{j\neq l}^ni_ji_l]

となります。

 

この第1項と第2項をわけて求めていきましょう。

 

②-1

まずは

E[\sum_{j=1}^ni_j^2]=\sum_{j=1}^nE[i_j^2]

から求めていきます。

 

ここでE[i_j^2]ですがP(i_j)は0~j-1までの範囲の離散型一様分布となるため

E[i_j^2]=\sum_{i_j=0}^{j-1}i_j^2・\frac{1}{j}\\=\frac{1}{6}(j-1)(2j-1)

となります。

 

よって

E[\sum_{j=1}^ni_j^2]=\sum_{j=1}^n\frac{1}{6}(j-1)(2j-1)

です。

 

②-2

次に

E[\sum_{j\neq l}^ni_ji_l]を考えます。

 

E[i_j]=\frac{j-1}{2}だったので

E[\sum_{j\neq l}^ni_ji_l]=\sum_{j\neq l}^nE[i_ji_l]\\=\sum_{j\neq l}\frac{j-1}{2}・\frac{l-1}{2}

 

結局のところ、この二つの積の和は、全てを総当たりでやった期待値の二乗から、l=jの部分を引いたものになるので

\sum_{j\neq l}^n\frac{j-1}{2}・\frac{l-1}{2}=\{\sum_{j=1}^n\frac{j-1}{2}\}^2-\sum_{j=1}^n\frac{1}{4}(j-1)^2

となります。

 

よって、E[Q^2]は②-1と足し合わせて

E[Q^2]=\sum_{j=1}^n\frac{1}{6}(j-1)(2j-1)+\{\sum_{j=1}^n\frac{j-1}{2}\}^2-\sum_{j=1}^n\frac{1}{4}(j-1)^2

となります。

 

③結果をすべてまとめる

以上の結果から

Var(Q)=E[Q^2]-(E[Q])^2\\=\sum_{j=1}^n\frac{1}{6}(j-1)(2j-1)+\{\sum_{j=1}^n\frac{j-1}{2}\}^2-\sum_{j=1}^n\frac{1}{4}(j-1)^2-\{\sum_{j=1}^n\frac{j-1}{2}\}^2\\=\sum_{j=1}^n\{\frac{1}{6}(j-1)(2j-1)-\frac{1}{4}(j-1)^2\}=\frac{1}{72}n(n-1)(2n+5)

 

となります。

 

最後にこれを

\tau=\frac{_nC_2-2Q}{_nC_2}

に代入して考えます。

 

Var(\tau)=\frac{4}{(_nC_2)^2}Var(Q)\\=\frac{2(2n+5)}{9n(n-1)}

 

これでようやく導き出せました。

 

平均と分散さえ分かれば、皆大好き中心極限定理を使えるため、無事正規分布に近似することができ、仮説検定も行えます。

 

参考文献:

こちらのサイトに書いてあった文献を探して参考にしました(サイト自体からはリンク切れでした)

ケンドールの順位相関係数 | 高校数学の美しい物語

実際の参考の文献はこちら

http://fisher.stats.uwo.ca/faculty/aim/vita/ps/kendall.pdf

 

Google Search Consoleのカバレッジが増えた&更新頻度を落とします

先日Google Search Consoleがうまく働いていない話を書きました。

 

medibook.hatenablog.com

 

地道なURLリクエストをしてみたところ、翌日までにカバレッジ数が54まで増えました!

f:id:medibook:20200828061339j:image

統計のリンク記事をまとめたやつとかをリクエストしたのが良かったのかもしれません。まだまだ、実際の数には届いていないのと、いまだにサイトマップは登録されないことが気になりますが、、、。この調子が続くなら、はてなブログ離脱もちょっと考えたくなりますね。

 

またカバレッジ数の推移はチェックしていきたいところです。

 

 

 

さて、ここ2ヶ月の間、1日1記事という縛りプレイを勝手に自らに課してきたのですが、ぼちぼち更新頻度を落とそうかなと思います。

 

理由はいくつかありまして、まずは記事のクオリティ(長さも含めて)の問題。

 

どうしても1日1つ書こうと思うと中途半端なところで納得しきらずに上げてしまったり、論理構成が微妙というのも、しばしば。あとは分割して上げたりしてましたけど、読みにくいんじゃないかなーというところもあります。

 

PV数があるやつは基本的にそれなりの長さを出して書いたやつなんですよね。

 

あとは統計とか医学関連のニッチ過ぎる話題が中心なので、多分マニアックな方々が来られてる気がしますから、記事自体の詳細さはもう少し磨きをかけたいと思います。

 

もう一つの理由はやはり時間の問題

 

急ぎで終わらせたい仕事とか論文とかあるとそっちに時間を割きたいときがあったり、朝早くから子どもが起きてしまうときがあったり、それだと仕方ないですね。

 

あとはアクセス数ですかね。毎日更新することでそれなりに伸びてきましたが、そろそろ伸びも鈍化してきたので、これは質を上げることに移行するタイミングなのかなあと思います。果たしてちゃんと時間をかけてそうなるかどうかは分かりませんが(汗)

 

良かったことは、書くことが習慣付いたこと。以前読んだ習慣づけの本でも、「毎日やるほうが、週何回かでやるより簡単」と書いてありました。

 

 

毎日まずパソコンに向かってアウトプットする癖がついたことと、それによって独力で色んなことを学んで、本を読む量とスピードも増えたことは良かった点かなと思ってます。

 

これからは、とりあえず毎日記事を書きつつ、それなりの塊が仕上がったら上げていこうかと思います。

相関係数②<スピアマンの順位相関係数の導出をわかりやすく>【統計検定1級対策】

前回記事に引き続いて相関係数についての学習をやっていきます。

 

前回記事はこちら

相関係数①<共分散~ピアソンの相関係数まで>【統計検定1級対策】 - 脳内ライブラリアン 

 

 

スピアマンの順位相関係数の導出

スピアマンの順位相関係数とは、ノンパラメトリックな2変数に対して、相関関係を示す場合に使われる相関係数です。

 

ピアソンの相関係数はY=aX+bのような線形モデルに対しての相関に使えますが、非線形モデル(Y=X^2とか)でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。

 

式としてはn組の(X,Y)のデータに対して

\rho=1-\frac{6}{n(n^2-1)\sum_{i=1}^n(x_i-y_i)^2}

となります。

 

統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。

 

やっていることは単純で、まずは確率変数X, Yを1位~n位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。

f:id:medibook:20200828051736j:plain

あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんです。

 

前回使ったピアソンの相関係数の式をみてみます。

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

このままだと代入しにくいので、もう少し分かりやすく変形してみます。

 

まず、分子は共分散の式を用いて

Cov(X,Y)=E[XY]-E[X]E[Y]

となるので

r=\frac{E[XY]-E[X]E[Y]}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}\\=\frac{\sum X_iY_i-nE[X]E[Y]}{{\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}}}・・・①

と変形できます。

 

さて、次にこの中で求められる数値を準備します。

XやYの期待値は順位の総和をnで割れば得られるので

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

となります。

f:id:medibook:20200828052325j:plain

先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが\sum X_i^2, \sum Y_i^2は1~nまでの二乗和になるので

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

となります。

 

スピアマンの相関係数の式をみてみると

\sum(X_i-Y_i)^2

という形があることがわかります。

 

なので、これをうまいこと作り出す準備をします。

\sum(X_i-Y_i)^2=\sum X_i^2+\sum Y_i^2-2\sum X_iY_i\\\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

こう変形できます。

 

必要なものを再度まとめ直すと

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

 

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

 

\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

 

の3つです。

 

あとは①の式の分子と分母についてそれぞれ見ていきます。

 

まず分母については、展開をして

\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}\\=\sqrt{\sum(X_i^2-E[X]^2)\sum(Y_i^2-E[Y]^2)}\\=\sum(X_i^2-E[X]^2)\\=\sum X_i^2-nE[X]^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2\\=\frac{1}{12}(n^3-n)

となります。

 

続いて分子は

\sum X_iY_i-nE[X]E[Y]\\=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2-\frac{1}{4}n(n+1)^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2-\frac{1}{2}\sum(X_i-Y_i)^2\\=\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2

 

分母と分子を合体させると

\frac{\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2}{\frac{1}{12}(n^3-n)}=1-\frac{6}{(n^3-n)}\sum_{i=1}^n(X_i-Y_i)^2

 

これで最初の式

\rho=1-\frac{6}{n(n^2-1)}\sum_{i=1}^n(x_i-y_i)^2

が得られました。

 

スピアマンの順位相関係数の検定

スピアマンの順位相関係数は有意性の検定を行うこともできます。方法はいくつかあるようで、サンプル数がある程度ある場合(10以上くらい)t分布、正規分布などへの近似を使うことが多いようです。

 

ただ『統計検定1級対応 統計学』によると、サンプル数が少ない場合は正規分布への近似がイマイチなようで、そういう場合はケンドールの順位相関係数を使うようです。あまり細かな使い分けは一般的にはないとされています。

 

ケンドールの順位相関係数については、分散の導出なんかやってみたら結構大変だったので次の記事で書きます。

 

参考文献:

導出についてこちらのサイトを参考にさせていただきました。

スピアマンの順位相関係数 統計学入門

 

 

 

相関係数①<共分散~ピアソンの相関係数まで>【統計検定1級対策】

今日は、公式を復習しつつ、共分散と相関係数に関連した事項と過去問をみてみようと思います。

 

2014-2017年の過去問をみる限りは意外と相関係数の問題はあまり出ていないんですよね。2017年の問5くらいでしょうか。

 

ただ出題範囲ではありますし、出てもおかしくないところではあるので、必要な公式と式変形を見直してみます。

 

定義とか概念はもっと分かりやすいページがいっぱいある(こことか→相関係数とは何か。その求め方・公式・使い方と3つの注意点|アタリマエ!)と思うので、検定対策という点とそれぞれの相関係数の特徴(パラメトリックかノンパラメトリックか)をみていく記事にしていきます。

 

目次:

 

 

共分散の式変形

相関係数を出すのに必要な共分散について、まず見直してみます。ある確率変数XとYの共分散Cov(X,Y)は以下の式で定義されます。

 

Cov(X, Y)=E[(X-E(X))(Y-E(Y))]\\=E[XY+XE(Y)-YE(X)+E(X)E(Y)]\\=E[XY]-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\=E[XY]-E[X]E[Y]

 

となります。最後の形のほうが使いやすいのでこちらを用いることが多いと思います。

 

ピアソンの相関係数

まずはこの共分散を使ってピアソンの相関係数の式をみていきます。

 

ピアソンの相関係数とはパラメトリックな分布をとる連続変数どうしの関連性を見る際に使われる相関係数です。ただ、「相関係数」と言う場合もこれを指します。

 

式としては分子に共分散、分母にそれぞれの標準偏差を持ってきます。

 

具体的な式として書くと

 

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

 

となります。

 

ここで実際の統計検定の問題を解くうえで注意が必要なのは、分子の標準偏差をnで割るかn-1で割るかということ。n-1で割る場合は不偏分散ですが、nで割る場合は標本分散です。

 

この式はnで割ったものを提示しています。というのも上記の式の共分散の定義は、期待値を用いている(期待値はnで割っている)ことから分かるように、標本分散と同様にnで割ったものだからです。

 

実際、分子分母間で統一されていれば、結局全部約分されるので、nでもn-1でもどちらでも同じです。ただ両方で統一しなければいけません。

 

何が困るかというところを、過去問で具体的にみてみます。

 

統計検定1級でみる過去問の事例

先日の記事でも書いた2015年の問2の続きである(2)を例にしてみてみます。

これは相関係数を求める問題です。

medibook.hatenablog.com

 

(2)は相関係数が以下の式で表せることを示す問題です。

r=\frac{\sqrt{n_1n_2}(\bar y_1-\bar y_2)}{\sqrt{n(n-1)s^2}}

 

ここで注意しなければいけないのは、最終的に示したい式で用いるs^2が不偏分散であることです。つまりn-1で割っています。そうするとこれを用いる以上は全てn-1で割る方向で統一した方が良いです。

 

あとは愚直に相関係数の公式に従って求めていきますが、n-1で割る形に補正をしていきます。

 

x_i=a(i=1,2,...,n_1), x_i=-a(i=n_1+1,...,n)とおいて考えていくと

 

例えば、相関係数の分子は

Cov(X,Y)=E[XY]-E[X]E[Y]となりますがn-1で割る形に補正して

\frac{n}{n-1}(E[XY]-E[X]E[Y])となります。

 

分母となる標準偏差の計算も以下の公式を使って出しますが

V(X)=E[X^2]-(E[X])^2

これも同様に不偏分散への変換が必要なので

\frac{n}{n-1}\{E[X^2]-(E[X])^2\}

という式にすることが必要です。

 

あとは相関係数の式に従って当てはめるだけ、となります。

 

うっかりここでnで割るか、n-1で割るかを間違えると答えにたどり着けなくなるので、同様の問題が出た時はちょっと落ち着いて考える必要がありそうですね。

 

統計検定で出るとしたら問題としても出しやすいので、今回紹介したピアソンの相関係数になると思いますが、続いて次回は範囲にはなっているので、スピアマンの相関係数をみていきます。

 

参考文献: 

日本統計学会公式認定 統計検定 1級 公式問題集[2014〜2015年]

日本統計学会公式認定 統計検定 1級 公式問題集[2014〜2015年]

  • 発売日: 2019/10/04
  • メディア: オンデマンド (ペーパーバック)
 

 

現代数理統計学の基礎 (共立講座 数学の魅力)

現代数理統計学の基礎 (共立講座 数学の魅力)

 

 

楽天ユーザーの方はこちら