2014-2021年の統計検定1級の出題範囲をまとめてみた(統計数理+医薬生物学+共通問題)【統計検定1級対策】
さて、そろそろ統計検定1級まであと3ヶ月となりました。
勉強時間が取れなさすぎて間に合うか不安しかないです(汗
そこで、ある程度は分野の重みづけをして勉強したほうが良いと思われますので、ここで改めて過去6年間の問題を見直して、出題された内容をキーワードにしてごく簡単にまとめてみました。一応2014年以外は一通り解いてます。
統計検定の受験を考えている人の訪問が結構あるようなので、ざっと眺めて参考にしていただければ幸いです。そして今年の問題のよい予測があったら教えてください、、、(笑
統計検定対策の記事やお役立ちサイト・参考書はこちらにまとめてあります
統計検定1級の出題範囲と過去の記事・お役立ちサイト・参考書をまとめてみた
(2021.09.02 共通問題の出題範囲を追記しました)
(2021.11.22 2021年の出題範囲を追記しました)
統計数理
統計数理は出題されている確率分布を中心に書いておきます。
2021年 統計数理
問1 指数分布 一様分布 確率変数の積と和
問2 超幾何分布 ベイズ法
問3 ポアソン分布 和の再生性 十分統計量 最尤推定量 信頼区間
問4 分布は規定なし 標本分散 平均まわりのモーメント
2020年はCOVID-19流行のため中止
2019年 統計数理
問1 二項分布 確率母関数
問2 指数分布 確率関数の和 変数変換
問3 一様分布 十分統計量 不偏推定量 完備十分統計量
問4 コーシー分布 仮説検定 α,β(検出力) 尤度比検定
ネイマンピアソンの補題
問5 ベイズ推定 事前分布 事後分布
2018年 統計数理
問1 カイ二乗分布 標本分散 不偏推定量 コクランの定理 デルタ法
問2 超幾何分布 期待値 不偏推定量 漸近分散 デルタ法
問3 二項分布 条件付き確率変数 条件付き期待値 条件付き分散 最尤推定 モーメント法
問4 正規分布 条件付き分布 条件付き期待値 条件付き分散 マルコフ性
問5 一様分布 順序統計量 同時確率密度関数 期待値 分散
2017年 統計数理
問3 ポアソン分布 二項分布との関連 モーメント母関数 確率変数の和 正規近似
2016年 統計数理
問1 正規分布 尤度関数 最尤推定量 バイアス 不偏推定量 最小二乗誤差 フィッシャー情報量 クラメール・ラオの下限
問2 指数分布 仮説検定 最尤推定量 不偏推定量 確率変数の和 カイ二乗分布
問3 線型モデル 最小二乗推定 算術平均と調和平均 コーシー・シュワルツの不等式
問4 正規分布 乱数生成 二項分布 一様分布
問5 MCARの検定(誘導の元で) 一元配置分散分析
2015年 統計数理
問1 正規分布 k次モーメント 不偏推定量 不偏分散の一致性 平均二乗誤差
問2 正規分布 P値 検出力 サンプルサイズ計算 ネイマンピアソンの補題
問3 重回帰分析 正規方程式 偏回帰係数の推定量の分散 偏回帰係数の推定量の最小二乗誤差
問4 2×2分割表 期待度数と観測度数 期待度数の最尤推定 尤度比検定
2014年 統計数理
問1 一様分布 条件付き確率 順序統計量
問2 ガンマ分布 モーメント母関数 変数変換(複数) 同時確率分布 順序統計量
問3 正規分布 仮説検定 z検定・t検定(分散未知/既知それぞれ) 信頼係数 区間推定
問4 線型モデル 正規方程式 最小二乗推定量 非心カイ二乗分布
問5 多項分布 尤度関数 適合度検定 尤度比検定
雑感
・ベイズは2019年が初出ですね。必要性の高まりを考えると今年も出そうですが、流石に出るとしても1−2問だと思われるので、可能なら回避する予定です。慣れないので、、、。
・出る分布は大体決まっている感じで、コーシー分布などの分布になるとちょっとしたヒントが一緒に出されます。(tanの逆関数を微分するとよいとか)
一様分布、二項分布、ポアソン分布、超幾何分布、指数分布、正規分布、カイ二乗分布、ガンマ分布あたりは確実に抑えておきたいです。
・不偏推定、最尤推定などの点推定や条件付きの問題も安定してよく出ています。
・デルタ法も汎用性の高さから、 よく問われているのでいろんな場面での使い方を抑えておきたいところです。確率変数を用いた関数の期待値、分散や漸近分布に対しての使い方とか。
統計応用(医薬生物学のみ)
統計応用は医薬生物学のみ書きます。出題されている内容と確率分布を頭に持ってきて書いておきます。
2021年 統計応用(医薬生物学)
問1 生存時間解析 カプランマイヤー法 競合リスクモデル
問2 正規分布 複合仮説による仮説検定 信頼区間 対数正規分布
問3 2×2分割表 オッズ比の推定 積二項尤度 カイ二乗分布
Cochran検定
2020年はCOVID-19流行のため中止
2019年 統計応用(医薬生物学)
問1 生存時間解析 指数分布 カプランマイヤー法 ネルソンアーレン推定量 RMST法
問2 前向きコホートでの再発比較 二項分布 信頼区間 共変量での層別化 傾向スコア バランス特性
問3 検査法の比較 二項分布 多項分布 感度・特異度 陽性的中率・陰性的中率 多変量正規分布の分散共分散行列 デルタ法 仮説検定
問4 対応のない2標本の検定 Studentのt検定 Wilcoxonの順位和検定
2018年 統計応用(医薬生物学)
問1 生存時間解析 指数分布 尤度関数 フィッシャー情報量 最尤推定 仮説検定 サンプルサイズ計算
問2 治療有効率の比較 多項分布 正規近似 信頼区間 尤度比検定
問3 感度・特異度 陽性的中率・陰性的中率 ROC曲線 c-statistic
問4 ロジスティック回帰分析 二項分布 調整オッズ比 AIC Kullback-Leibler情報量
2017年 統計応用(医薬生物学)
問1 生存時間解析 ハザード関数 Cox比例ハザードモデル 一様分布からの乱数生成
問2 中間解析(α消費関数法) 2変量正規分布 ログランク検定(内容は問われていない)
問3 simonの2段階デザイン 二項分布 第1種・第2種の過誤 サンプルサイズ計算
問4 層別化された後ろ向き研究 オッズ比 Petoの方法
2016年 統計応用(医薬生物学)
問1 対応のある2標本の検定 t検定 符号検定 符号付き順位検定 符号検定の正規近似 符号付き順位検定の正規近似
問2 治療有効率の比較(4種) カイ二乗分布 コクラン・アーミテージの傾向性検定
問3 生存時間解析 カプランマイヤー法 ログランク検定 部分尤度
問4 薬物血中濃度のAUC 対数正規分布 モーメント母関数 変動係数 信頼区間
2015年 統計応用(医薬生物学)
問1 治療有効率の比較 カイ二乗検定 多項分布
問2 超幾何分布 フィッシャーの直接確率計算法
問3 回帰分析 偏回帰係数の最尤推定 偏回帰係数の最尤推定の分散共分散行列
問4 前向きコホート研究 有害事象の差 二項分布 ロジスティック回帰分析 調整オッズ比
2014年 統計応用(医薬生物学)
問1 治療効果(連続変数)の比較 カイ二乗分布を用いた検定
問2 平均への回帰 2変量正規分布による仮説検定
問3 陽性的中率・陰性的中率 正規分布 感度・特異度 ROC曲線のAUC
問4 生存時間解析 指数分布 MST λの最尤推定
雑感
・バラエティに富んでいて、傾向が掴みづらいですね、、。特に直近の2019年はどうにも見慣れない問題が多く、初見で解ける気がしませんでした。
・2標本(あるいは1標本)のt検定、ノンパラ検定の問題は比較的型に収まりやすいので、もし出題されたら確実に得点したいところです。各検定の特徴も問われるので抑えておきたいですね。
・生存時間解析もここのところ毎年出ている重要な分野です。これも大体型に収まってる気がしますが、RMST法は捻ってますね。知ってれば簡単ですが知らないとこれもまたミスしそうです。あとは出てない部分としてGreenwoodの公式あたりそろそろ出ないですかね。程よい難易度になると思うので。
・基本的にちょっと凝った概念(RMST法、傾向スコア、Simonの2段階デザイン、中間消費法など)でも誘導があるんですが、うまく誘導に乗れるかどうかが大問題です。あらかじめその概念を知っておけると楽なのでしょうが、現実的にはなかなか難しいですね。
統計応用(共通問題)
2021年 統計応用(共通問題)
問5 感度/特異度 陽性/陰性的中率 感度/特異度に合わせた閾値の計算
2019年 統計応用(共通問題)
2018年 統計応用(共通問題)
問5 混合分布 正規分布 二峰性
2017年 統計応用(共通問題)
問5 二項分布 漸化式 サンプルサイズ計算 二項分布の正規近似
2016年 統計応用(共通問題)
問5 2標本のt検定 95%信頼区間 信頼区間とt検定の関係
2015年 統計応用(共通問題)
問5 二元配置分散分析 P値 分散の最尤推定
2014年 統計応用(共通問題)
問5 独立性のカイ二乗検定 二項分布 超幾何分布
雑感
・基本的な事項を問う問題が多く、医薬生物学の応用問題よりは解きやすいものが多いように思います。誘導もそれなりについている点もありがたいです。数理統計の良い勉強になります。
・2019年の問題に出ている適合度検定における多項分布と正規近似、そこからの共分散行列、カイ二乗分布に結びつけていく部分は、よく見てみると医薬生物学の問題でも2回ほどは出ている概念です。程よい難易度で問題がいくつも作りやすいからかもしれません。多項分布に対してラグランジュの未定乗数法でパラメータの最尤推定をする、というのも出てますね。
・なんとなく苦手としている分野でなければ、医薬生物学から3問解くよりもここにチャレンジした方が良さそうな気がします。
【医療統計YouTube】推測統計【第4回】
Youtube更新しました。
第4回は推測統計の話です。
臨床試験(特にランダム化比較試験)をやる際に、ある母集団から標本を抽出して試験を組みます。そこから母集団の効果を推測するのが推測統計の考え方ですね。
基本的な話かもしれませんが、少なくとも通常臨床を普通にやっている範囲では全く触れることがありませんでした(汗
「過度の一般化」が特に起きやすい問題です。
・第3相試験でexclusion criteriaに入っている患者さんに、リスクベネフィットのバランスをよく考えずに処方する
・薬剤がadd-onの試験デザインになっているのに、1st lineで処方する
・含まれている年齢層が非常に少ないのに超高齢でも処方する
などなど、元の試験について何も考えずに処方するのは問題であるかなと思います。その辺は添付文書に書いてあることは多いですけどね。専門として用いるメジャーな薬に関しては、大規模ランダム化比較試験の内容は簡単にでも知っておくべきでしょう。自分の使う薬全部を見ていくなんてことはできませんが、、、数を絞ってやるしかないですね。
動画でも述べているように、効果はあくまで「その試験での限定的なもの」なので、ズレうることを承知しておかないといけません。こうした個人に対しての配慮は医師が必ずしも正しいわけではありませんが、(おそらく今後も)データだけではどうしたって完全な答えが出せないものなので、そうするしかないように思います。「臨床試験に組み込まれる人とそうでない人には違いがある」といったことはこの辺の論文などにも記載されています。
もちろん「試験に組み込まれていないから」「試験とは違うから」といってそこから外れた人のことは全くわからない!なんていうのは硬直しすぎな考えですが、医療に関して比較的確実であろう部分とそうでない部分の違いを知っておくのは必要ですね。
次回は「仮説検定」をテーマにする予定です。いつもみんなの議論のタネになるP値についても触れていきます。
REGN-COV2067試験(抗体カクテル療法、治療)についての追記
更新頻度落とすと言っておきながら、気になる抗体カクテル療法の試験についてのプレプリント論文が出されていたので思わず記事書いてしまいました。全然気づきませんでしたが結構前からあったんですね。
以前に予防投与とプレスリリースの情報を記載した抗体カクテル療法の話です。
プレプリントとして出されたのはこちらの論文になります。
REGEN-COV Antibody Cocktail Clinical Outcomes Study in Covid-19 Outpatients | medRxiv
Supplemental appendixはこちら
REGEN-COV Antibody Cocktail Clinical Outcomes Study in Covid-19 Outpatients | medRxiv
Clinical trialsによる試験の登録情報はこちら、簡潔にまとめてあります。
目次:
PICOによる概要
さて、論文化されたのでPICOから順番に改めて概要を見てみます。
試験の形式としては多施設共同の二重盲検試験で、参加国としてはアメリカ、チリ、メキシコ(主にはアメリカですが)となっています。
P:
・18歳以上、入院していない患者
・SARS-CoV2が検査で陽性かつ発症72時間以内
・リスク因子が1つ以上含まれる
(50歳以上、BMI30以上の肥満、高血圧を含む心血管疾患、COPDor喘息、糖尿病、CKD、慢性肝疾患、免疫低下)
なお、除外基準として大まかには
・ランダム化の時点で入院となった患者
・他の治験薬を含めた治療薬を受ける予定のある患者
・ワクチン接種後あるいは接種予定の患者
となっています。
Clinical trialsのページにおけるkey inclusion/ exclusion criteriaに簡潔にまとめてあります。
ワクチン接種者が含まれていない、というのは今現在での効果を考える上で大きな違いになると思われますが、また後述します。
I:
REGEN-COV1200mg or 2400mg
C:
O:
Primary outcomeは29日間における1回以上の入院または死亡の複合エンドポイント
入院の基準については明確な記載が見つけられませんでした。
なお、割付は盲検化されていますが、調査者やデータ解析には薬剤の開発元であるRegeneronが関係しています。(COI)
試験の結果
被験者の概要
Figure1に振り分け人数と流れが記載されています。
もともとはリスクなし+リスク因子ありの患者がinclusionであり、この時は2400mgと8000mgの二群が介入群でした。その後、その中でリスク因子ありの2400mgのものだけが抽出されるという特殊な形になっています。
その後延長された試験内容において1200mg、2400mgの二群が介入群とされ、リスク因子ありの患者のみがinclusionとなったようです。
よって、1200mg群よりも2400mg群が最も多くなっています。
プラセボ群:1341名
1200mg群:736名
2400mg群:1355名
が最終的な解析対象となりました。
続いてTable1.にはpatients characteristicsが記載されています。
年齢の中央値は48−50歳となっており、65歳以上は10−15%と比較的少数です。
アジアの人種はいずれも3−5%とどうしても低いですね。
BMIは平均31と日本とは少し乖離が見られています。
BMI、年齢はリスク因子に含まれてますので、特に数値が高くなりやすい傾向はあるでしょう。
Primary outcome
これは以前のプレスリリースのものとほぼ同じです。
1200mg群 vs placeboで
1.0% vs 3.2% p<0.0024
ここから計算すると
ARRは2.2%、NNT45
2400mg群 vs placeboで
1.3% vs 4.6% p<0.0001
ARR 3.3%、NNT30
となります。
論文内には相対リスク減少とその95%CIしか記載ないですが、イベント数が少ないためミスリードになりがちです。ARRをきちんと計算するのが良いでしょう。
また、前に書いたようにあくまで複合エンドポイントなので死亡がどれだけ減ったかの方が重要なように思われます。
Secondary outcome(一部)
まず、気になる点として複合エンドポイントの内訳です。入院と死亡では大きく意味合いが異なります。
Supplementary appendixにある死亡のみのアウトカム(Table S6.)を見ると
(REGEN-COV Antibody Cocktail Clinical Outcomes Study in Covid-19 Outpatients | medRxivより引用)
プレスリリースの通り、死亡については有意差がなかったことがわかります。
実数がかなり少ないため(相対リスク減少の) 95%信頼区間も幅がめちゃくちゃに大きいです。
続いて、人工呼吸器使用やICU入室はどうか見てみます。
(同supplementary appendixより引用)
ICU入室についてはより人数の多い2400mg群で有意差が出ていますが、ICU入室の1200mg群、そして人工呼吸器使用については有意差が出ていません。死亡と同様に実数がかなり少ないこともわかります。
抗体カクテル療法は死亡を減らせるか
複合エンドポイントであるが故に、この点が一般に伝わりにくいのは問題ですが、今回の試験の結果からは「死亡を減らせるかどうかは分からない」という結論しか導き出せません。
1000人以上の規模の試験でこれですから、今後も検証することは困難かと思われます。
加えて、前述したようにこの試験はワクチン接種者は含まれていませんし、試験の時期も2020/6~2021/6となっています。
現在の日本の状況においてワクチン接種率の増加や死亡率が低下していること(ウイルスの変異かワクチンの効果かはさておき)を考えると死亡に関しての効果が得られる見込みはなおさら下がります。
これは重症化の観点においても同様と思われますし、ICU入室、呼吸器管理においても十分なアウトカムが得られていないところを見ると、効果の恩恵は薄くなってしまうと言わざるを得ないのではないでしょうか。
とはいえ、今回の試験、予防投与の試験のいずれもアウトカムを問わず全体に投与群で経過が良い傾向があるところを見ると当然効果はあるのでしょうが、程度の問題というところですね。
また、2400mg群の一部は初め組まれていた予定と異なる形で試験が組みなおされ(リスク因子がある群のみを対象として)後付けな部分がある点も気にかかります。
現在の日本の状況でどうなのか、が最も重要なので国内第3相試験をやるべきであったというのは、その通りであるかなと感じます。
今後は事後的な解析データしか得られないわけですが、それでもデータを集めて現場での判断で有効性を検証していくしかないでしょう。少なくとも今回の試験通りのデータを実臨床に応用するには①重症化率、死亡率の変動、ワクチンの影響と②そもそも重症化を防ぐ十分な差がついてはいない、という点が問題となると思われます。
しばらく充電期間を設けます
ほぼこのブログのメインコンテンツとなっている統計検定の1級ですが、じわじわ試験日が近づいてきました。
普段勉強にあてられる時間が早朝と通勤中のみで、朝は基本的にブログ更新にあてていますが、そろそろ試験に向けて勉強時間増やさないとヤベえなと思い始めました。
多分問題を解くのに必要な情報はそれなりに集めているのですが、スムーズなアウトプットの練習が絶望的なまでに足らないように思います。
加えて、ほぼ同時期に神経内科専門医試験もあるので、そっちもやらんとなあということもあり。
そんなわけでしばらく更新のペースを落とします。
Youtubeは続けていきますし、気晴らしに(需要はないであろうが)フーコーの話は書いたりするかもしれません。また諸々終わったら、その間に溜め込んだものを記事にしていくつもりです。
当ブログにきている統計検定1級受験をお考えの方々、ともに頑張りましょう。
現代数理統計学の基礎 5章 問9
4連休はガッツリお休みもらえていたのですが、下の子(1歳)の調子が悪く、常に不機嫌で最後となる本日明け方に嘔吐し、洗濯三昧で締めでした、、、。久々に新生児期なみの大変さを感じましたね。
さて、今回は現代数理統計学の基礎から標本平均と標本分散(不偏分散)の漸化式の問題です。n+1個のデータによる標本平均、不偏分散をn個のデータによるもので表すという話です。
なんの役に立つんだろうと思って調べると(以下)Welfordの方法と言って、逐次的に標本平均や標本分散を更新するためのアルゴリズムに使われるようですね。その辺は分からないのでさっぱりですが。
Algorithms for calculating variance - Wikipedia
平均と分散を逐次的に計算するアルゴリズム - 具体例で学ぶ数学
まず(1)から。
和の記号からn+1項をうまく分離すればできますね。
続いて(2)。(1)の結果を用いてあとはを作り出すように良い感じにまとめると、できます。
和の記号を変換していく良い練習になりますね。
現代数理統計学の基礎 5章 問7
あっさりした問題なので解答記事すら不要な気もしますが、復習がてらで書いてみます。
を示す問題ですね。
まずg(x)>0なのでマルコフの不等式から
あとはg(x)=g(-x)の対称性とg(x)が増加関数であることを利用して左辺を変形すると
となります。
現代数理統計学の基礎 5章 問8
ちまちまと「現代数理統計学の基礎」の忘れてる分野の解き直しを行ってます。色々忘れてますけど、やり直すたびに少しずつ理解が進むのは嬉しいことですね。
5章の問8は平均二乗収束を示す問題ですね。
確率収束を示す問題ではチェビシェフの不等式もしくは平均二乗収束を使うことが多いので、統計検定1級でも同様の解き方は結構役立つのではないでしょうか。
分散が分かりやすい、かつ不偏推定量の収束を示すなら、チェビシェフで良いと思うのですが、今回の問題のように複雑な形で不偏推定量ではない場合は平均二乗収束の方が良いんですかね。
式を見ていきますと
さてここで、期待値の中はどうなっているかを和の記号をバラして具体的に見てみると
ですね。
そうなると
みたいなのは期待値を取ると0になって消えることがわかります。これはシグマと期待値が出てくるときには結構よくある変形の手段ですね。
なので同じデータ部分を二乗したもののみが残ります。よって
n→∞のとき、0に収束することがわかります。よって、μに確率収束することが示せました。