Cochrane risk of bias tool v.2.0のためのWeb tool

皆さんご存知の通り、Cochraneのシステマティックレビューのための、ランダム化比較試験のバイアスリスクの評価法が2019年8月からVersion 2.0になりました⇒RoB 2 tool

バイアスの評価ドメインが5つに減り、評価のグレーディングがLow, Some concerns, Highの3段階になり、シグナリングクエスチョンに答えることで自動的に評価を決定する仕組みが導入されました。

コクランのシステマティックレビューアのためにExcelの評価ツールが用意されています。シグナリングクエスチョンに答えていくことで、各ドメインの評価が決められますが、もし、評価者の評価と異なっていた場合は、評価者の評価を優先するルールになっています。また、各シグナリングクエスチョンの答えの組み合わせが、アルゴリズムに無い場合もあります。そのような場合、評価者の理解の違いによる場合もありますし、アルゴリズムと見解が異なる場合もあり得ます。

Cochrane risk of bias tool v.2.0のためのウェブツールやその他のツールを以前から公開していましたが、解説を充実させ、また評価結果をExcelの評価シートに取り込めるように改良しました⇒Link 今のところ日本語版だけです。

その評価シートを含むExcel bookはこちらです⇒2022_excel_book_cpg.xlsx

Network Meta-analysisとエビデンスの確実性評価

今までの投稿で、Network meta-analysis(NMA)について解説してきました。

Network Meta-analysisをOpenBUGSで
MacでR,JAGS,rjagsを使うNetwork meta-analysisをやってみる
SUCRA(Surface Under the Cumulative Ranking Curves)

NMAでは3つ以上の介入を比較し、最も効果が優れているのはどれかを知ることができます。通常のペア比較メタアナリシスが二つの介入の内どちらの方が効果が優れているのか、すなわちComparative effectivenessに答えるのに対し、NMAはExtended comparative effectivenessに答えるとも言えます。

ネットワークメタアナリシスの基礎とそのアウトプットおよびエビデンスの確実性(GRADEアプローチ)についての解説を作成しました。こちらです

一つのアウトカムに対する介入の効果をNMAで解析しただけでは、益と害の複数のアウトカムに対する効果にトレードオフがある場合、どれが最善の介入かを決めることはできません。メタアナリシスで得られる結果は直接益と害の大きさを示しているわけではありません。エビデンスの確実性の評価も複雑になります。NMAそのものはデータさえそろえれば、だれでもできるだけのツールがそろっていますが、NMAも万能ではないことを理解した上で使う必要があります。

EBMのテキストブックにおける臨床決断の扱い

EBM(Evidence-Based Medicine)の教科書として、知らない人はいない、Straus SE, Glasziou P, Richardson WS, Haynes RB: Evidence-Based Medicine: How to practice and teach EBM. (5th edition) . 2019, Elsevier, London, UK. をもう一度読み直し、EBMと臨床決断との関係について考えてみました。

さて、EBM実践の5つのステップは図1に示す通りで、医療に携わっている人で知らない人はいないと思います。以前の投稿でも解説しました。

図1.EBM実践の5つのステップ。

”Step 1: 必要な情報を回答可能な質問に変換する”はPICO形式のクリニカルクエスチョンを作成すること、つまり、Population対象、Intervention介入、Comparator対照、Outcomeアウトカムの4つの項目を設定すると考えられているでしょう。しかし、アウトカムは重要なアウトカムをひとつ設定すればいいのでしょうか?臨床決断のためには、複数の益と害のアウトカムに対する介入の効果の大きさと確実性を分析する必要があります。益のアウトカムあるいは自分が疑問に思う、あるいは自分の興味あるアウトカムに対する効果だけを調べるだけでは、臨床決断に必要な情報は得られないかもしれないということになります。

このテキストブックでは、4章から6章まで以下の主題に関する研究論文を評価する際に、つまり”批判的吟味”を行う際に、①妥当か?②重要か?③適用可能か?の順に沿った枠組みで、評価することが述べられています。第4章では、臨床決断分析の研究論文や診療ガイドラインの批判的吟味についても述べられています。

4 Therapy: ランダム化比較試験、システマティックレビュー、臨床決断分析、医療経済分析、診療ガイドライン、n-of-1臨床試験

5 Diagnosis: 診断検査法、事前確率、複数の診断検査法、スクリーニング

6 Prognosis: 予後

7 Harm: 害

このステップは治療、診断、予後、害のいずれの場合も共通です(図2)。

図2.批判的吟味の共通のステップ。(Straus SE 2019に基づいて投稿者が作成)。

個別のランダム化比較試験についての記述では、3つのステップのそれぞれにおける評価項目が設定されています(図3)。その適用可能性の評価項目をみると、”われわれの患者がその治療により得られる可能性のある益と害は?”という項目があります。

図3.ランダム化比較試験(Randomized Controlled Trial, RCT)の各ステップの評価項目。(Straus SE 2019に基づいて投稿者が作成)。

批判的吟味の対象の研究論文に”益と害は何か?”、あるいは、益と害の大きさが直接記述されているわけではありません。益のアウトカム、害のアウトカムに対する介入の効果は記述されていて、それらを知ることはできるでしょう、しかし、それがそのまま益と害の大きさを表すわけではありません(Aler BS 2018, 2019)。また、一つのランダム化比較試験の研究論文では、すべての重要アウトカムに対する効果を知ることができない場合もあります。(比較効果研究Comprative Effectiveness Research, CERであれば、直接益と害の大きさの推定について、記述されているかもしれません。以前の投稿 および。)

ここでは、”われわれの患者が。。。”ですから、目の前の患者がその介入を実施した場合、どのような益と害を受けるのか?をその担当医が判断することを求めていると考えられます。Population-perspectiveの研究結果から、Individual-perspectiveの意思決定を行うということになります。しかし、その判断をどうやったらいいのでしょうか?しかも、Shared Decision Making(以前の投稿 を参照)のステップを踏んで、患者の価値観を聴いた上で、医療のセッティングを考慮した上で、決断Decision Making するということはどのようなことなのでしょうか?

本書の第4章には、臨床決断分析に関する部分がありますが、そこは臨床決断分析の研究論文の批判的吟味の手順についての記述であり、臨床決断はどのようにしたらいいのか?について書かれているわけではありませんので、そこを読んでも臨床決断の科学的な方法や、限界についてわかるようになるわけではありません。

ひとりひとりの患者さんは属性、価値観が異なり、同じ条件の人はまずいません。そのため、このようなテキストブックでは臨床決断を一般的な方法論として扱うことはできず、医師の裁量権の中で、個別に判断すべきという考えなのかもしれません。しかし、個別の臨床決断を論理的、科学的に行うにはどうしたらいいか?は極めて重要なテーマです。

また、診療ガイドラインでは推奨を作成する必要があるため、本来、決断分析が必要になるはずです。医療経済評価でもそうですし、医療政策もそうです。Elstein ASは2004年の時点で、これらのことを指摘しており、また、決断分析は医療界に広く受け入れられていないことをすでに指摘しています(Elstein AS 2004)。現在もあまり変わっていないように思えます。

診療ガイドラインでは、エビデンスの確実性だけでなく、益と害のバランス(正味の益)、Population-perspectiveとIndividual-perspective、強い推奨と弱い推奨、デシジョンエイド、などについて十分な理解が必要です。診療ガイドライン作成には、EBMの枠組みを超えた知識、スキルが必要です。

実臨床における臨床決断Medical Decision Making、協働意思決定Shared Decision Making 、そして診療ガイドライン作成Development of Clinical Practice GuidelineにはEBMのテキストブックではカバーされていない知識・スキル、すなわち少なくとも決断の科学Decision Scienceについて知る必要があると考えた方がいいようです。

本ブログでもいままで何回か決断分析について取り上げています。

  • Multi-Criteria Decision Analysis (MCDA)
  • Multi-Criteria Decision Analysis (MCDA)のステップ
  • Keeney and RaiffaのSwing weightingを用いたMCDA
  • Swing weightingを用いたMCDAの結果
  • EMAのBenefit-risk methodology
  • FDAのBenefit-Risk Assessment Framework 
  • FDAのBenefit-Risk Assessment(続き) 

文献:
Alper BS, Ehrlich A, Oettgen P: 6 putting it all together: from net effect estimate to the certainty of net benefit.  BMJ Evidence-Based Medicine 2018;23(Supplement 1):
http://dx.doi.org/10.1136/bmjebm-2018-111024.6

Alper BSはウェブツールとしてNet Effect Calculatorを公開しています(EBSCO Health DynaMed Pus)。

Alper BS, Oettgen P, Kunnamo I, Iorio A, Ansari MT, Murad MH, Meerpohl JJ, Qaseem A, Hultcrantz M, Schünemann HJ, Guyatt G, GRADE Working Group: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. doi: 10.1136/bmjopen-2018-027445 PMID: 31167868

Elstein AS: On the origins and development of evidence-based medicine and medical decision making. Inflamm Res 2004;53 Suppl 2:S184-9. doi: 10.1007/s00011-004-0357-2 PMID: 15338074

Gail MH, Costantino JP, Bryant J, Croyle R, Freedman L, Helzlsouer K, Vogel V: Weighing the risks and benefits of tamoxifen treatment for preventing breast cancer. J Natl Cancer Inst 1999;91:1829-46. PMID: 10547390

———————————————-
Alper BSはNet Effect Calculatorを公開しています(文献欄にリンクしてあります)。これは、二値変数アウトカムの場合、Gail/NCIの方法(Gail MH 1999)に準じているようで、Net effect正味の効果の点推定値とその信頼区間が算出されます。ただし、各アウトカムに対する効果の間に相関がある場合は、適用できないことになっています。

正味の効果とは、各アウトカムの重要性を設定し、それぞれのアウトカムに対する効果の大きさを最重要アウトカムの値に調整して、複数のアウトカムに対する効果の総和を算出したものです。例えば、最重要アウトカムの重要性が1.0でリスク差が100人に-10人、重要性を0.5に設定したアウトカムのリスク差が100人に4人の場合、後者は100人に4×0.5=2人分とみなして、総和を計算します。前者が、有害事象が減少する場合で、マイナスの値、後者が有害事象が増える場合でプラスの値、とすると、この例では、正味の効果は100人で-8人となります。さらに95%信頼区間の下限値と上限値を設定しますが、この二つの値は、点推定値に対して対称になります。正味の効果推定値は正規分布に従うことを前提としており、その分布の標準偏差SDと正味の効果の推定値の95%信頼区間の値が算出されます。(なおGail/NCIの方法では正味の益が増える場合にプラスの値になるよう計算する点で相違があります。)

Synthesis without meta-analysis (SWiM)について

Campbell Mらの提唱する、メタアナリシスのないエビデンスの統合方法について要点をまとめてみました。以下の9項目のチェックリストが提案されており、これらの項目を記述することが求められています。

1.統合のための研究のグループ化 Grouping studies for synthesis

介入、対象、アウトカム、研究デザインなど、統合に用いた研究のグループ化の際の基準項目の記述とその理論的根拠を記述する。特に、RCTに限定するわけではないので、さまざまな点で違いがある研究を統合する必要があり、研究をグループ化する際の基準項目を説明することが求められる。

介入のアウトカムへの影響に対する理論(Theory)や理論的根拠rationaleを述べる、あるいは引用する。

2.標準化した効果指標と用いられた変換方法Describe the standardised metric and transformation methods used

リスク比、オッズ比、リスク差、平均値差、標準化平均値差、平均値比、効果の方向、あるいはP値などのいずれかを用い、共通の指標で効果の大きさを提示する。オッズ比から標準化平均値差へ変換するなど、変換が必要な場合は、その方法を記述する(Cochrane handbook 第6章参照)。

3.統合の方法 Describe the synthesis methods

メタアナリシスができない場合、代替として用いた統合の方法を記述し、その正当性を述べる。P値を結合する、中央値と中央四分位などまとめ値を提示する、効果の方向について投票結果を提示するなど(Cochrane handbook 12章参照)。

4.まとめと統合のために優先的に用いた研究結果の選択基準 Criteria used to prioritise results for summary and synthesis

研究デザイン、バイアスリスク、非直接性、サンプルサイズなど、研究選択の基準を記述し、正当性を説明する。事前に基準を設定した場合はそれを記述するが、文献検索後に変更が必要になった場合は、それを記述する。

5.報告されている効果の異質性の調査 Investigation of heterogeneity in reported effects

異質性を調べた方法を記述する。メタアナリシスによる亜群分析、メタリグレッションができないので、研究間の異質性を、表やグラフで示し、そのような方法を用いた理由を記述する。

6.エビデンスの確実性 Certainty of evidence

統合した知見の確実性を評価するのに用いた方法を記述する。統合した知見の精確性(可能であれば信頼区間など)、研究数、参加者数、研究間の効果の非一貫性、各研究のバイアスリスク、非直接性、出版バイアスなど。投票の結果を提示することもある。

7.データの提示方法 Data presentation methods

表、グラフ(フォレストプロット、ハーベストプロット、箱ひげ図、効果方向プロット、アルバトロスプロット、バブルプロットなど)とそれらの解説。研究を等級づけた場合の基準項目など。

8.結果の報告 Reporting results

それぞれの比較とアウトカムに対して、統合された知見、その確実性を記述する。クリニカルクエスチョンに対応する結果を記述し、貢献度の大きな研究について説明する。

含めた研究の重要な特徴や、可能であれば、信頼区間、確実性の評価の結果などを記述する。

異質性の調査の結果を記述する。事前に予定した手法を変更した場合は、それを理由とともに記述する。

9.統合の限界 Limitations of the synthesis

統合に用いた方法やグループ化に用いた方法の限界を記述し、得られた結論への影響をオリジナルのリサーチクエスチョンと関連付けて記述する。

統合方法の限界について報告する際には、標準化した効果指標、用いた統合の方法、統合するために必要だった研究のグルーピングの再構成について記述する。

効果の方向、あるいはそれに関する投票を効果指標(metric)として用いた場合、“介入の効果の平均はどれくらいか?”よりも“効果を示す何らかのエビデンスがあるか?”というクエスチョンが適切である。(ランダム効果モデルのメタアナリシスの場合と同様)。

エビデンスが限られていたり、アウトカムや効果推定値の報告が不完全であったりしために、初期の分析プロトコールを変更せざるを得なかった場合、それによる限界を報告すること。

ーーーーーーー

メタアナリシスができない、あるいは含まないシステマティックレビュー(SR)については、論文報告の方法や形式に差があり、スタンダードの必要性が主張されてきた。また、従来、Narrative synthesis, Qualitative synthesis, Synthesis without meta-analysis、定性的システマティックレビュー、質的統合、定性的統合などさまざま用語が用いられてきたが、ほぼ同じ意味で用いられてきた。ただし、質的研究Qualitative Researchのシステマティックレビューという意味ではないので、注意が必要である。

SWiMはPRISMA、RAMESESなどを発展させたもので、開発方法もフォーマルな公正さ、透明性を確保する方法が用いられている。SWiMによれば、効果のmetricすなわち効果指標として、たとえばリスクが低下するがその正確な程度はわからないような場合、すなわち「定性的には効果がある」と言えるような場合、介入の効果の方向性についてエビデンスを統合することや、投票結果を用いることまで、方法として含めており、全体として非常に柔軟性の高い方法といえる。

文献:
Campbell M, McKenzie JE, Sowden A, Katikireddi SV, Brennan SE, Ellis S, Hartmann-Boyce J, Ryan R, Shepperd S, Thomas J, Welch V, Thomson H: Synthesis without meta-analysis (SWiM) in systematic reviews: reporting guideline. BMJ 2020;368:l6890. doi: 10.1136/bmj.l6890 PMID: 31948937