SoF tableから正味の益 Net benefitの分析へ-1

GRADEアプローチではエビデンス評価のまとめとして、”Evidence profile”と、さらに”SoF (Summary of Findings) table”を作成することになっています。SoF tableは単なる結果のまとめ表ではありません、SoF tableには次の7つの要素を含める必要があります。

1.すべての重要+重大なアウトカムおよびエビデンス総体の総括
2.これらアウトカムのベースラインリスク
3.介入群の絶対リスク(イベント率)、あるいは絶対リスク減少=絶対効果指標
4.リスク比、ハザード比などの相対効果指標
5.参加者の人数(総数)と研究数
6.アウトカムごとのエビデンス総体のエビデンスの確実性:ABCD4段階
7.コメント。

SoF tableの最大の目的はアウトカムごとのエビデンス総体のエビデンスの確実性を示すことではなく、望ましい効果=益Benefitと望ましくない効果=害Harmの大きさとバランスを分析するために必要な絶対リスクと絶対効果指標を示すことであると言えます。

益と害の大きさとバランスを分析するには、批判的吟味、エビデンスの確実性の評価を超えた知識・スキルが必要です。”Decision analysis”決断分析、定量的な益と害の分析、確率的感度分析を行うのであれば、統計学、モンテカルロシミュレーションの知識・スキルも必要になります。

益と害のバランス=正味の益を知るには、①測定されたアウトカムが有益な事象か有害な事象か、すなわち効果推定値が大きい方が望ましい効果なのか逆に小さい方が望ましい効果なのかをまず明確にする必要があります。そして、②アウトカムが二値変数の場合は、絶対リスク(各群のイベント率)または絶対リスク減少=リスク差、連続変数の場合は、絶対リスク(各群の平均値)または平均値差が必要になります。さらに、③アウトカムの重要性を設定する必要があります。SoF tableでは②を含めることを求めていると言えます。ここでのアウトカムの重要性は、患者の価値観と同じ意味で、クリニカルクエスチョン設定時のSRの施行の必要性、エビデンス総体の総括の評価に用いるかどうか、推奨を決めるのに用いるかどうかを決めるアウトカムの重要性の設定とは異なります。そのアウトカムに患者あるいは個人が、アウトカム間で相対的にどの程度の価値を置くかということです。

また、WHOのGRADEprofiler helpでは、5.5.1.6.1 Calculation of absolute effectで相対効果指標から絶対効果を求める方法が紹介されています。対照群のイベント率をCERとします。オッズ比ORの場合は、OR/[1 – CER×(1 – OR)]でリスク比RRに変換し、ハザード比HRの場合は、[1 – exp{HR×ln(1 – CER)}]/CERでリスク比RRに変換します。リスク比RRからは、CER×(1 – RR)で絶対効果の値が得られます。この値は、リスク差あるいは絶対リスク減少に相当し、100倍すれば100人あたり、1000倍すれば1000人当たり、10000倍すれば10000人当たりの効果が確認できる人数が得られることになります。expはexponential、lnは自然対数です。

益と害のバランスあるいは正味の益、絶対効果、絶対リスク、ベースラインリスク、ハザード率とハザード比とイベント率、アウトカムの重要性と価値観、これらについて理解したうえで、Multi-Criteria Decision Analysis (MCDA)多基準決断分析、Quantitative Benefit-Risk AnalysisあるいはQuantitative-Benefit Harm Analysis定量的な益と害の分析について理解することは、推奨作成において今後より重要になると思います。 定量的な益と害の分析について は、すでにこれまで解説してきましたが、まだ解説していないGail/NCIの方法も含めて、より総合的にわかりやすく解説したいと思っています。今回は、図1と図2をどこまで理解できるか、考えてみてください。

  • Gail MH, Costantino JP, Bryant J, Croyle R, Freedman L, Helzlsouer K, Vogel V: Weighing the risks and benefits of tamoxifen treatment for preventing breast cancer. J Natl Cancer Inst 1999;91:1829-46. PMID: 10547390 
  • Multi-Criteria Decision Analysis (MDCA)>
  • Multi-Criteria Decision Analysis (MCDA)のステップ >
  • Keeney and RaiffaのSwing weightingを用いたMCDA >
  • Swing weightingを用いたMCDAの結果 >
  • EMAのBenefit-risk methodology >
  • FDAのBenefit-Risk Assessment Framework >
  • FDAのBenefit-Risk Assessment(続き) >

前立腺癌のPSAによるスクリーニング

US Preventive Services Task Force (USPSTF)は55歳から69歳までの男性の前立腺癌のPSA (Prostate Specific Antigen)の定期的検査によるスクリーニングは個別に適用すべきであると、その推奨GradeはCになっています。

一方、前立腺癌の発症は数多くの遺伝子がかかわっているpolygenicな機序によることが明らかにされています(1)。Schumacher FRが筆頭著者ですが、この研究には世界中の139施設が参加しており、多数の著者による、国際規模の一大研究の論文です。

さて、2019年Callender Tらは年齢とpolygenic profileに基づき、前立腺癌のリスクを推定し、リスクの程度によってPSAによるスクリーニングの有効性を解析した論文を発表しました(2)。10年の前立腺癌の発症リスクが4%になると、上記の年齢で4年ごとのPSAスクリーニングと比べ、過剰診断が3分の1減少するが、死亡は6.3%少ないだけという結果でした。費用対効果もすぐれており、一律にPSA測定によるスクリーニングを行うより、リスクで層別化して一定の閾値以上の場合、スクリーニングを実施べきではないかという結論です。

ポピュレーション全体で解析するとベネフィットがハーム(益が害)を上回るといえない場合でも、一定以上のリスクの亜群(Subpopulation)では正味の益が得られるということは他の状況でもありえます。Precision Medicineの方向へ進むことが必要なことは明らかです。それをどのような方法で証明するのか、どのような研究手法が必要なのか、考える必要があります。Callender Tらの研究は、”Benefit-harm and cost-effectiveness modelling study”とタイトルにも書かれている通り、実際に新たなデータを収集した訳ではありませんが、意思決定に有用ではないかと思います。

文献:
(1) Schumacher FR, Al Olama AA, Berndt SI, et al: Association analyses of more than 140,000 men identify 63 new prostate cancer susceptibility loci. Nat Genet 2018;50:928-936. PMID: 29892016
(2) Callender T, Emberton M, Morris S, Eeles R, Kote-Jarai Z, Pharoah PDP, Pashayan N: Polygenic risk-tailored screening for prostate cancer: A benefit-harm and cost-effectiveness modelling study. PLoS Med 2019;16:e1002998. PMID: 31860675

Bias adjustment thresholds

2019年にAnnals of Internal MedicineにPhillippo DMらからネットワークメタアナリシスによるエビデンスの確実性からさらに臨床決断へのバイアスの影響を評価する方法について新しい手法が報告されました(1)。GRADE (Grading of Recommendations Assessment, Development and Evaluation)のエビデンス総体の確実性の評価方法(2, 3)と比較した結果が述べられています。

Bias adjustment thresholdsを用いる方法です。GRADEアプローチではバイアスリスク、非直接性、不精確性、非一貫性、出版バイアスを評価し、複数の研究をまとめたエビデンス総体の確実性の評価を行いますが、直接、臨床決断あるいは推奨への影響を評価するわけではありません。Phillippo DMらの方法では、臨床決断を逆転させるバイアスの閾値を評価し、実際の研究の結果に対してそれ以上のバイアスの影響があるかどうかを判断して、臨床決断が逆転しうるかどうかを解析しています。実際にGRADEの方法を用いた場合と異なる結論が得られることが示されています。

Phillippo DMらの論文は、もともと2016年に発表された同じグループのCaldwell DMらの論文(4)がもとになっています。さらに、2018年にはJournal of Royal Statistical SocietyのSeries AにPhillippo DM, Dias S, Ades AEらの論文(5)として発表されています。Journal of Royal Statistical Societyには2009年にTurner RMらのバイアスの定量的モデル化の論文(6)が発表されており、当然のことながら引用されています。

ネットワークメタアナリシスだけでなく通常のペア比較のメタアナリシスについても同じ手法が適用可能です。非常に重要な論文だと思います。

文献:
(1) Phillippo DM, Dias S, Welton NJ, Caldwell DM, Taske N, Ades AE: Threshold Analysis as an Alternative to GRADE for Assessing Confidence in Guideline Recommendations Based on Network Meta-analyses. Ann Intern Med 2019;170:538-546. PMID: 30909295
(2) Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schünemann HJ: GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol 2013;66:151-7. PMID: 22542023
(3) Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH: GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64:401-6. PMID: 21208779
(4) Caldwell DM, Ades AE, Dias S, Watkins S, Li T, Taske N, Naidoo B, Welton NJ: A threshold analysis assessed the credibility of conclusions from network meta-analysis. J Clin Epidemiol 2016;80:68-76. PMID: 27430731
(5) Phillippo DM, Dias S, Ades AE, Didelez V, Welton NJ: Sensitivity of treatment recommendations to bias in network meta-analysis. J R Stat Soc Ser A Stat Soc 2018;181:843-867. PMID: 30449954
(6) Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. PMID: 19381328

下の図を見て、バイアスの効果についてちょっと考えてみてください。

Bias effects. RR: Risk Ratio; Log (Natural logarithm) of RR normally distribute and are additive, while on ratio scale RR is multiplicative.

Patient preference information – Best-worst scaling exercise

FDAのRegulatory ReviewにおいてPatient preference informationが重要になってきています。患者の選好に関する研究Patient preference studiesも盛んになってきており、患者の選好を測定するさまざまな方法が報告されています。

1. Validity and Reproducibility of Existing Methods.
2. Effect of Method Choice on Study Results.
3. Effect of Sample Composition on Study Results.
4. Effect of Attribute Inclusion or Exclusion on Study Results.
5. Effect of Communication Style and Methods on Study Results.

これらの項目について現時点での課題と、将来の発展について Levitan BらがPatientというジャーナルのEditorialで述べています。
Levitan B, Hauber AB, Damiano MG, Jaffe R, Christopher S: The Ball is in Your Court: Agenda for Research to Advance the Science of Patient Preferences in the Regulatory Review of Medical Devices in the United States. Patient 2017;10:531-536. PMID: 28831745

以前の投稿で述べましたが、List of methods included in the Catalog に、Preference選好の評価法に関してさまざまな方法がまとめられています。
Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Ho Mらの論文の方法の一覧表にも出ていますが、Peay HLらによると、Best-worst scaling exercises 最善最悪スケーリングエクササイズはStated preference表明選好に分類され、Conjoint analysis and discrete-choice experiments コンジョイント分析および離散選択分析よりも理解しやすく簡単に施行できるということです。
Peay HL, Hollin I, Fischer R, Bridges JF: A community-engaged approach to quantifying caregiver preferences for the benefits and risks of emerging therapies for Duchenne muscular dystrophy. Clin Ther 2014;36:624-37. PMID: 24852596

複数のAttributeあるいはアウトカムに2-3個のレベルが設定され、それらを数個ずつ組み合わせ、すべての組み合わせについて、評価者に最善と最悪の項目を選ばせて、解析し、重要度をスコア化する方法です。Peay HLらの論文では簡単な集計でも信頼できる結果が得られると述べられています。

Louviere JJ, Flynn TN, Marley AAJ : Best-Worst Scaling: Theory, Methods and Applications. 2015, Cambridge University Press.の著者のひとりであるFlynn TNはBest-worst scaling exercisesの第一人者のようです。