Bias adjustment thresholds

2019年にAnnals of Internal MedicineにPhillippo DMらからネットワークメタアナリシスによるエビデンスの確実性からさらに臨床決断へのバイアスの影響を評価する方法について新しい手法が報告されました(1)。GRADE (Grading of Recommendations Assessment, Development and Evaluation)のエビデンス総体の確実性の評価方法(2, 3)と比較した結果が述べられています。

Bias adjustment thresholdsを用いる方法です。GRADEアプローチではバイアスリスク、非直接性、不精確性、非一貫性、出版バイアスを評価し、複数の研究をまとめたエビデンス総体の確実性の評価を行いますが、直接、臨床決断あるいは推奨への影響を評価するわけではありません。Phillippo DMらの方法では、臨床決断を逆転させるバイアスの閾値を評価し、実際の研究の結果に対してそれ以上のバイアスの影響があるかどうかを判断して、臨床決断が逆転しうるかどうかを解析しています。実際にGRADEの方法を用いた場合と異なる結論が得られることが示されています。

Phillippo DMらの論文は、もともと2016年に発表された同じグループのCaldwell DMらの論文(4)がもとになっています。さらに、2018年にはJournal of Royal Statistical SocietyのSeries AにPhillippo DM, Dias S, Ades AEらの論文(5)として発表されています。Journal of Royal Statistical Societyには2009年にTurner RMらのバイアスの定量的モデル化の論文(6)が発表されており、当然のことながら引用されています。

ネットワークメタアナリシスだけでなく通常のペア比較のメタアナリシスについても同じ手法が適用可能です。非常に重要な論文だと思います。

文献:
(1) Phillippo DM, Dias S, Welton NJ, Caldwell DM, Taske N, Ades AE: Threshold Analysis as an Alternative to GRADE for Assessing Confidence in Guideline Recommendations Based on Network Meta-analyses. Ann Intern Med 2019;170:538-546. PMID: 30909295
(2) Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schünemann HJ: GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol 2013;66:151-7. PMID: 22542023
(3) Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH: GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64:401-6. PMID: 21208779
(4) Caldwell DM, Ades AE, Dias S, Watkins S, Li T, Taske N, Naidoo B, Welton NJ: A threshold analysis assessed the credibility of conclusions from network meta-analysis. J Clin Epidemiol 2016;80:68-76. PMID: 27430731
(5) Phillippo DM, Dias S, Ades AE, Didelez V, Welton NJ: Sensitivity of treatment recommendations to bias in network meta-analysis. J R Stat Soc Ser A Stat Soc 2018;181:843-867. PMID: 30449954
(6) Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. PMID: 19381328

下の図を見て、バイアスの効果についてちょっと考えてみてください。

Bias effects. RR: Risk Ratio; Log (Natural logarithm) of RR normally distribute and are additive, while on ratio scale RR is multiplicative.

Bayesian meta-analysis of DTA with imperfect reference standard

診断精度研究Diagnostic Test Accuracy (DTA) Studyでは参照基準が完全であること、すなわち参照基準の感度・特異度が100%であることを前提として、インデックス診断法の感度・特異度を求めているが、実際には参照基準が不完全な場合が多い。 参照基準が不完全な場合には、参照基準で陽性と判定された例には、偽陽性の例が含まれるため疾患群には非疾患群の一部が含まれるとともに、陰性と判定された例には、偽陰性の例が含まれるため非疾患群に疾患群の一部が含まれてしまう。そのため、有病率を直接知ることができなくなるとともに、参照基準で分類された疾患群、非疾患群における評価診断法の感度・特異度は真の値の推定値とはなりえないことになる。

また、メタアナリシスで感度・特異度の統合値を算出する場合、研究によって異なる参照基準が用いられている場合もある。また、インデックス診断法と参照基準の間に相関がある場合はそれによる値の調整が必要である。このような場合に対処可能な、ベイジアンアプローチによるメタアナリシスの手法、BUGSコード、RスクリプトがDendukuri Nらによって報告されている。Nandini Dendukuriは自身のウェブサイトでこれらの情報を公開している。

Dendukuri N, Schiller I, Joseph L, Pai M: Bayesian meta-analysis of the accuracy of a test for tuberculous pleuritis in the absence of a gold standard reference. Biometrics 2012;68:1285-93. PMID: 22568612

Dendukuri N, Joseph L: Bayesian approaches to modeling the conditional dependence between multiple diagnostic tests. Biometrics 2001;57:158-67. PMID: 11252592

彼女の作成したBUGSコード、Rスクリプトにさらに、Forest plotを作成するRスクリプトを追加し、データをExcelで用意すれば、一度に解析を実行し、結果を出力するウェブツールを用意した。useRsのメタアナリシスの#5. Dendukuri Nのモデルを用いるR、BRugs、OpenBUGSによる診断精度(Diagnostic Test Accuracy, DTA)研究のベイジアンメタアナリシスである。実際のデータ処理は自分のPCでRとOpenBUGSで行うので、あらかじめRとOpenBUGSのインストールが必要で、さらにRのパッケージでtcltk2、BRugs、forestplotが必要である。これらのパッケージはPのスクリプトを最初にRで実行すれば自動でインストールしてくれる。 これらのパッケージの作者その他の情報についてはuseRsを参照していただきたい。

これらについては以前、国際医学情報センターの医学情報誌のあいみっくに発表しているのでそれらも参照されたい。
森實敏夫:医学統計学シリーズ第46回 RとOpenBUGSによる診断法のベイジアンメタアナリシスからForest plot作成まで。2018年6月。
森實敏夫:医学統計学シリーズ 第26回 参照基準が不完全な場合の診断法のメタアナリシス。2013年9月。
森實敏夫:医学統計学シリーズ 第25回 診断法のベイジアンメタアナリシス。2013年6月。

The six characteristics of CER

IOMの定義する比較効果研究Comparative Effectiveness Research (CER)の6つの特徴は:

  1. CER directly informs a specific clinical decision (patient perspective) or a health policy decision (population perspective).
  2. CER results are described at the population and subgroup levels.
  3. CER compares at least two alternative interventions, each with the potential to be “best practice.”
  4. CER employs methods and data sources appropriate for the decision of interest.
  5. CER is conducted in settings that are similar to those in which the intervention will be used in practice.
  6. CER measures outcomes – both benefits and harms – that are important to patients.

”CERは特定の臨床決断(患者さんの観点)あるいは健康方針決定(ポピュレーションの観点)に直接情報を与えるものである”ということです。”直接”という意味は、そのまま意思決定に用いることができるということです。

”CERは患者さんにとって重要な益と害のアウトカムを測定する”ということです。

診療ガイドライン作成において、推奨作成に向けての作業はまさにCERですね。CERはエビデンスの生成だけでなくエビデンスの統合も含みますから。

文献: Velentgas P, Dreyer N, Nourjah P, Smith S, Torhia MM, ed : Developing a protocol for observational comparative effectiveness research: a User’s guide. AHRQ, 2013, Rockville. PubMedリンク

比較効果研究CERと診療ガイドライン作成

比較効果研究Comparative Effectiveness Research (CER)のNAM National Academy of Medicine (旧IOM Institute of Medicine)の定義は、“比較効果研究CERは臨床状態の予防、診断、治療、モニターのためあるいはケアの供給を改善するための方法の選択肢の益と害を比較するエビデンスの生成と統合を行うことである。CERの目的は個人および集団の両方で、消費者、臨床家、購入者と政策決定者が、ヘルスケアを改善するであろう、情報を与えられた上での決断を支援することである。”です。以前の投稿で述べたとおりです。

一方、診療ガイドラインのMindsの定義は、WHOやGRADE Working groupと同じですが、”診療上の重要度の高い医療行為について、エビデンスのシステマティックレビューとその総体評価、益と害のバランスなどを考量して、患者と医療者の意思決定を支援するために最適と考えられる推奨を提示する文書”です。(Minds診療ガイドライン作成マニュアル2017」)

CERは一次研究だけでなくエビデンスの統合も含まれます。つまり、システマティックレビュー/メタアナリシスもCERになる可能性があります。CERの目的のひとつは”個人および集団の両方で、…情報を与えられた上での決断を支援すること”になっています。ここには”推奨”という言葉は出てきませんが、”決断を支援する”、つまり”意思決定を支援する”ことが目的であることが明確に述べられています。

ひとつのクリニカルクエスチョンを取り上げてみると、診療ガイドライン作成における、システマティックレビューまでの過程をひとつのCERと呼ぶことにはあまり異論はないのではないかと思います*。また、患者さんの参加という点でもCERと共通点があります。推奨作成の過程も科学的に進めることができるのであれば、推奨も含めてひとつのCERであると言っていいのではないでしょうか。このような考えを認めるのであれば、”診療ガイドライン作成はCERを行うことである”ということになり、診療ガイドライン作成に参加され尽力された方の学問的業績として取り扱うべきであるということになります。

システマティックレビュー/メタアナリシスの論文として発表するだけでなく、決断分析なども含めた推奨までの過程をCERの論文として発表することを今後推進すべきではないでしょうか。そうすることで、推奨作成の過程も含めて、ピアレビューを受けたうえで、出版され、それらの蓄積を束ねる形で、診療ガイドラインを作成することが可能になります。

文献:——–
Asche CV ed.: Applying Comparative Effectiveness Data to Medical Decision Making: A Practical Guide. 2016, Adis (Springer International Publishing Switzerland) この本にはCERの定義について、IOMだけでなく、NIH、AHRQ、PCORI、Federal Coordinating Council for Comparative Effectiveness Researchの定義も記載されています。

*もともとIOMは2011年の時点で、システマティックレビューの定義のなかで、システマティックレビューは”scientific investigation”科学的研究であると述べています。 ”A systematic review is a scientific investigation that focuses on a specific question and uses explicit, preplanned scientific methods to identify, select, assess, and summarize the findings of individual, relevant studies. ” (Clinical Practice Guidelines We Can Trust, 2011) また、多くのシステマティックレビュー/メタアナリシスの論文がさまざなジャーナルに発表されていて、システマティックレビュー/メタアナリシスは学問的な活動の成果であることについては異論はないと思います。さらに、CERの条件にあえば、CERとしても成立します。