実際の医学論文から統計を学んでみるⅢ-REWIND trialのexploratory outcomeについて-

実際の論文をみて学んでみる記事シリーズです。今回は統計というより論文の読み方に近いかもしれません。ランダム化比較試験に対して、批判的な目を養おうということで、結果の信頼性について具体例を通じて、批判的にみる練習をしようと思います。

前回はこんな記事でした。

medibook.hatenablog.com

なんでこの話を書こうと思ったかといえば、病院の抄読会でたまたまREWIND trialというトルリシティ（糖尿病治療の注射薬）のstudyとそれをもとにしたexploratory outcomeの論文を読んだのですが、読めば読むほど、「このstudyのoutcomeって本当に正確と言えるのか・・・？」と疑問がつきなかったので、紹介してみようと思いました。

結果だけみると「トルリシティの投与で認知症患者が14%減らせる！」なんていう驚愕の話になるわけですが、そんなうまい話があるわけありません。

というわけで、この結果の信頼性を検討を今までの記事をみつつまとめます。

目次：

REWIND trialとは？
Secondary analysisと結果の信頼性
①そもそもRCTのprimary outcomeではない
②有効な患者層はかなり限定されている
③そもそものoutcomeの設定がどうか
もともとの研究内容自体にも一部疑問あり
RCTの結果の信頼性

REWIND trialとは？

正式名称はDulaglutide and cardiovascular outcomes in type 2 diabetes (REWIND): a double-blind, randomised placebo-controlled trial

2型糖尿病患者に対してトルリシティによる心血管系イベントへの効果をみた大規模な多施設二重盲検のRCTです。

COIとしてトルリシティの会社であるイーライリリーが研究、解析などもろもろに直接関与しています。

詳細な内容が気になる方はぜひご自身の目でみて頂きたいですが、PICOで簡単に内容を紹介しておくと

50歳以上のA1c 9.5以下の2型糖尿病

経口糖尿病薬2種類以下±インスリン注射

BMIは23以上

心血管リスクがある程度ある

9901名を中央値5.4年で追跡

I: デュラグルチド（トルリシティ）1.5mgを毎週皮下注射

C: プラセボを毎週皮下注射

どちらも他の薬剤コントロールは自由

O: Primary outcomeは複合エンドポイントで

非致死性心筋梗塞

非致死性脳梗塞

心血管由来もしくは原因不明の死亡

という試験デザインです。

この試験デザインと結果にも疑問が一部あるのですが、後述します。

Secondary analysisと結果の信頼性

そして、その研究の中で、認知機能評価(MoCAとDSST)を行っていた8828名(89%)の結果を用いて、二次的な解析としてその認知機能の変化をみたのがこちらの論文です。

Effect of dulaglutide on cognitive impairment in type 2 diabetes: an exploratory analysis of the REWIND trial

こちらはＰＩＣＯのうちＩやＣは同じですが、outcomeを「患者がその国の認知機能評価スケールの平均値の-1.5SDに達したとき」と設定しています。

結果そのものには実は差がありませんでしたが、ベースライン補正（試験開始時の認知機能に応じた補正）をすることで14%もの差が生じたとしています。さて、この結果は本当に信頼性があるのでしょうか。

REWIND trialそのものも気になる点があるんですが、こちらの認知機能低下に関しての結果の信頼性がどうかということを中心に書いてみます。

①そもそもRCTのprimary outcomeではない

primary exploratory outcomeと書かれている通り、これは実際のRCTのprimary outcomeではありません。

アメリカでの臨床試験は基本的にこちらに登録されていますが

Home - ClinicalTrials.gov

もともとの試験開始の際に設定したprimary outcomeはここに書かれています。今回の研究ではもちろんこのprimary exploratory outcomeは入っていません。というのも、exploratory outcomeはあとから結果に対して解析を行って、検討するタイプのものなので、本来のoutcomeとは異なります。

論文中にはこのoutcomeの設定に関して、結果を見る前に行ったとあるのですが、とは言っても、全て終わったあとで設定してますので、いわば後出しです。

secondary outcomeも含めて、こうした後出しのoutcomeの問題点は、たくさんoutcomeを設定すればするほど、どこかでαエラー(第一種過誤)が生じる点です。

有意差0.05として考えた場合、ひとつのoutcomeを考えれば、αエラーが生じない確率は0.95ですが、ふたつになるとどちらもαエラーが生じない確率は

0.95×0.95=0.9025

みっつになると

0.95×0.95×0.95=0.8573

と明らかに小さくなっていくことが分かります。

つまり、outcomeの数が増えれば増えるほど、どこかで有意差が生じるわけです。

また、secondary outcomeについてはサンプルサイズの問題もあります。RCTではprimary outcomeを検出するために、βエラー（第二種過誤）を起こしにくい確率を想定して、数を組んでいることが多いので、それ以外のoutcomeについては必要な数になっていないことも多くあります。なので基本的にはsecondary outcomeの結果というのはよほど明確な差がついていない限り、「偶然」ということが起こりやすいのです。

まして、今回のexploratory outcomeはそもそも有意差もなく、ほぼ差がなかったのですが、さらに後出しのpost-hoc解析をしてベースライン補正をかけてようやく差が認められたという結果です。ちょっとさすがに信頼性は厳しいものがあるのではないでしょうか。

②有効な患者層はかなり限定されている

primary exploratory outcomeでは差が出なかったので、その後層別解析がされました。認知機能のベースラインがもともと低い人、中くらいの人、高い人の1/3ずつの層に分けて解析した結果、低い人では有意差が出たということがあり、outcomeをベースラインで補正することを決めています。

とすると差が出たのはいわばベースラインが低い人の補正が強く出たからであり、ベースラインがもともと高い人や中くらいの人では、post-hoc解析で出たような効果がない、ということになります。

つまり、かなり効果がある患者層は限定的です。さらにもともとの患者層より実質的に差がある部分は少数になるため、なおさら数値としての信頼性は揺らぎます。

③そもそものoutcomeの設定がどうか

「認知機能の点数が国の平均の-1.5SD」という評価がイベントとしてそもそもどうなのかということも気になります。先行研究を提示して、このような方法でもやっている、と主張しているわけですが、先行研究をみてみると、「下位16パーセンタイル」だったり、かなり近いものの全く同じ指標を使っているわけではありません。

認知症の定義ってどこまで日常生活に影響が出るかやその人のベースにもよってくるので、単純に点数で測りにくいことが問題で、outcomeの設定は確かに難しいと思うのですが、少なくとも-1.5SDが認知症の発症として広く受け入れられている指標とは言い難いと思います。

もともとの研究内容自体にも一部疑問あり

ちょっとここは話が変わるのですが、解析のもととなった研究内容の結果も若干疑問があります。もとの研究の結果としてはdulaglutideがcardiovascular eventを予防するかどうかという話で、結論としては心血管イベントが減ります！ということなんですけども、エンドポイントは上述のように複合エンドポイントで、脳卒中もイベントに含んでいます。実際中身をみていくと心イベントはさして差がなかったり、、、なんなら致死性の心筋梗塞はdulaglutide群のほうが多いです(26 vs 20)。これって心血管イベントの抑制と言う話に果たしてなるんでしょうか。むしろ脳卒中については興味わきますけどね。

しかも複合エンドポイント自体も95%信頼区間の上が0.99とかなりぎりぎりで、figure1. trial profileをみるとsponsor decisionなる謎の選別により5名と7名が解析対象から外されていたり（本文中に詳細がない）。これが一体なぜ外されたのか分かる方がいたら教えてほしいです。

RCTの結果の信頼性

こうやってみていくとRCTと言えど、実臨床で考えた場合に中身には十分信頼がおけないものも結構あると思います。吟味せずにその数値だけ流し読みしてしまうと大変な誤解が生じます。

エビデンスにうるさい海外ではどんな感じに扱われているのかな、と思ってネットで検索してみると医療者向けニュースサイトでもこんな感じでした。

"Now, a secondary analysis from Hertzel Gerstein, MD, of McMaster University in Hamilton, Ontario, and coauthors writing in Lancet Neurology, suggests dulaglutide also might help reduce the occurrence of accelerated cognitive decline by as much as 14%."

（A Diabetes Drug That Slows Cognitive Decline? | MedPage Todayより引用）

"might"なんでかなり弱い表現だとは思いますが、やっぱりこのpost hoc解析である『14%』っていう数値を持ってくるんですね。パッと読んで、dulaglutideが14%も認知症を減らすのか、と思ってしまうのは大きな間違いだと思います。

こうした「大して意味のない可能性がある違いがさも意味があるかのようにとらえられてしまう」問題を解決するには、情報を発信する側、スポンサーとして研究を行う企業、解釈する側の3点のどこかが良くならないといけないように思います。

それぞれの問題点として

情報を発信する側・・・2次解析のさらに補正をかけた2次解析でもこんな有名ジャーナル載ってしまう

スポンサー企業・・・臨床的にさして意味がなかったとしても商品の優位を示したい

解釈する側・・・十分な背景を理解せず流し読みしてしまう

まあこうなってしまうそれぞれの言い分は理解できます。情報発信のジャーナルも商業誌ではあるので、インパクトのある内容が必要でしょうし。スポンサーも大量の資金を臨床試験にかけているから何か意味を出さないといけないでしょう。解釈する側も一つ一つの論文をきちんと読むような時間がないのは確かでしょう。

とはいえ間違った解釈が正しいかのように流布されて、大した理解のないままに患者さんに使われていくのはどうも解せません。少しずつでも、この状態が改善できんかなと思います。

(2021.06.28追記医学論文の読み方関係の記事はこちらにまとめました)

medibook.hatenablog.com