SoF tableから正味の益 Net benefitの分析へ-2

銀行口座での収支の計算を例にして、正味の益の計算について考えてみましょう。

図3.異なる通貨で入出金が行われる口座1。

銀行口座の残高の計算

銀行口座の残高はバランスBalanceと言います。

口座1があるとします。100人の人がこの口座へ入金したり、出金したりできるとします。口座は円で管理されています。最初は残高0円です。各自が得られる貨幣はドルかマルクのどちらかで、ひとりが硬貨を1枚だけ得ることができ、それを口座に入金できます。一方で、引き出す必要があるときは、ポンドかフランかどちらかで、ひとり硬貨1枚分だけ引き出して、それぞれの通貨で、支払いにあてることができます。

100人の人たちが、ある作業をします。何人かの人がそれぞれドルかマルクかの硬貨を1枚だけ得ることができます。一方で、何人かの人がポンドまたはフランの硬貨で(経費の)支払いが必要になります。

口座1の方では、その作業の結果、5人の人が1ドルずつ得たので、それを入金しました。別の4人の人が1マルクずつ得たのでそれを入金しました。5ドルと4マルクですが、円に交換して入金するので、それぞれ為替レートを掛け算して、円に変換した金額の合計が、収入として入金されることになります。570+264=834円入金されました。ここでは両替の手数料は0とします。

一方で、その作業のための支出として、2人がそれぞれ1ポンドずつ、1人が1フラン分出金して(経費)を支払うことになりました。2ポンドと1フランですが、円からそれぞれの通貨に交換して支払うので、為替レートを掛け算して、口座からは円に変換した金額が出金されることになります。支出は306+20=326円でした。同じく、両替の手数料は0とします。

収入-支出は図3に示すように、508円になります。口座1の残高は508円でした。この残高Balanceは正味の益Net benefitと同じ意味です。

図4.異なる通貨で入出金が行われる口座2。

もうひとつ別の口座、口座2があるとします。こちらも口座1と同様で、100人の人がこの口座へ入金したり、出金したりできるとします。口座は円で管理されています。

100人の人たちが、ある作業をします。その作業は口座1の人たちとは違う作業です。作業した結果、5人の人が1ドルずつ得たので、それを入金しました。別の5人の人が1マルクずつ得たのでそれを入金しました。5ドルと5マルクですが、円に交換して入金するので、それぞれ為替レートを掛け算して、円に変換した金額の合計が、収入として入金されることになります。570+330=900円が入金されました。

一方で、その作業のための支出として、3人がそれぞれ1ポンドずつ、2人がそれぞれ1フランずつ出金して(経費)を支払うことになりました。3ポンドと2フランですが、円からそれぞれの通貨に交換して支払うので、為替レートを掛け算して、円に変換した金額が出金されることになります。支出は459+40=499円でした。

収入-支出は図4に示すように、401円になります。口座2の残高は401円です。この残高Balanceは正味の益Net benefitと同じ意味です。

もしどちらかの作業を選択できるとしたら、どちらを選択しますか?508円>401円ですから、口座1の方の作業を選ぶでしょう。

口座1の方の作業より、口座2の方の作業の方が、100人全体で、1マルク多く得られますが、支出も1ポンド+1フラン多くなります。これだけでは、どちらがいいかわかりませんが、為替レートを掛け算して残高を計算すると、口座1の方の作業の方が残高が多いことが明確になります。

これを医療的介入にあてはめると、ドル、マルク、ポンド、フランのそれぞれの通貨がアウトカム、硬貨の数すなわちそれらを得た人数が効果の大きさ、為替レートがアウトカムの重要性に相当します。

二つの口座の残高の比較

口座1と口座2の残高のどちらが多いかを比べたい場合、残高の差額を計算する方法は少なくとも二通りあります。

ひとつは、すでにやったように、口座ごとに残高を集計して、その差を求める方法です。もうひとつの方法は、通貨ごとの差を先に求めて、それを集計する方法です。図5に示すように、どちらの方法でも結果は同じになります。

図5.二つの口座の残高を比較する場合。


左側に示す、口座ごとの残高をまず計算してから、二つの口座の残高の差額を計算する場合、収入はプラス、支出の方はマイナスで各講座の総和を計算して、ぞれぞれの残高を計算します。二つの口座の残高の差額を計算する場合、どちらを基準にするかを決める必要があります。ここでは、口座2を基準にし、差額は、口座1の残高-口座2の残高として計算しています。臨床の二つの介入を比較する場合にあてはめると、口座1が介入群になり、口座2が対照群になります。もし、差額がマイナスになれば、対照群の方が正味の益が大きいということになります。プラスなら、介入群の方が正味の益が大きいということになります。

右側に示す、二つの口座の間で、通貨ごとの差を集計する方法では、収入の部では差額のプラス・マイナスはそのまま、支出の部では、プラス・マイナスを逆にして合計する必要があります。右側の例では、支出は2種類の硬貨ともマイナスになっています。つまり、口座1の方が口座2より額が大きかったということで、プラス・マイナスを逆にして総和を求める必要があります。

ここで示す二つの方法の内、前者は絶対リスクで各介入群ごとに正味の益を計算して、群間の差を計算する方法、後者はリスク差Risk Difference、RDを用いて計算する方法に相当します。いずれも結果は同じなります。この通貨の例では、100人が作業を行うことを想定しましたが、RDに100を掛け算した値を用いて計算すれば、症例数100人あたりの計算になります。

RDを用いて正味の益を計算する場合、そのアウトカムが有益な事象なのか、有害な事象なのかによって、別の視点では、RDが増加すると望ましいのか、減少すると望ましいかによって、プラス・マイナスを決める必要があります。介入群の絶対リスク-対照群の絶対リスクとしてRDを計算する場合、アウトカムが有益な事象の場合は、RDはプラスで値が大きいほど益が大きくなりますが、アウトカムが有害な事象の場合は、RDはマイナスで値が小さいほど(絶対値が大きいほど)益が大きくなります。後者の場合、プラス・マイナスを逆にして総和を求める必要があります。

SoF tableから正味の益 Net benefitの分析へ-1

GRADEアプローチではエビデンス評価のまとめとして、”Evidence profile”と、さらに”SoF (Summary of Findings) table”を作成することになっています。SoF tableは単なる結果のまとめ表ではありません、SoF tableには次の7つの要素を含める必要があります。

1.すべての重要+重大なアウトカムおよびエビデンス総体の総括
2.これらアウトカムのベースラインリスク
3.介入群の絶対リスク(イベント率)、あるいは絶対リスク減少=絶対効果指標
4.リスク比、ハザード比などの相対効果指標
5.参加者の人数(総数)と研究数
6.アウトカムごとのエビデンス総体のエビデンスの確実性:ABCD4段階
7.コメント。

SoF tableの最大の目的はアウトカムごとのエビデンス総体のエビデンスの確実性を示すことではなく、望ましい効果=益Benefitと望ましくない効果=害Harmの大きさとバランスを分析するために必要な絶対リスクと絶対効果指標を示すことであると言えます。

益と害の大きさとバランスを分析するには、批判的吟味、エビデンスの確実性の評価を超えた知識・スキルが必要です。”Decision analysis”決断分析、定量的な益と害の分析、確率的感度分析を行うのであれば、統計学、モンテカルロシミュレーションの知識・スキルも必要になります。

益と害のバランス=正味の益を知るには、①測定されたアウトカムが有益な事象か有害な事象か、すなわち効果推定値が大きい方が望ましい効果なのか逆に小さい方が望ましい効果なのかをまず明確にする必要があります。そして、②アウトカムが二値変数の場合は、絶対リスク(各群のイベント率)または絶対リスク減少=リスク差、連続変数の場合は、絶対リスク(各群の平均値)または平均値差が必要になります。さらに、③アウトカムの重要性を設定する必要があります。SoF tableでは②を含めることを求めていると言えます。ここでのアウトカムの重要性は、患者の価値観と同じ意味で、クリニカルクエスチョン設定時のSRの施行の必要性、エビデンス総体の総括の評価に用いるかどうか、推奨を決めるのに用いるかどうかを決めるアウトカムの重要性の設定とは異なります。そのアウトカムに患者あるいは個人が、アウトカム間で相対的にどの程度の価値を置くかということです。

また、WHOのGRADEprofiler helpでは、5.5.1.6.1 Calculation of absolute effectで相対効果指標から絶対効果を求める方法が紹介されています。対照群のイベント率をCERとします。オッズ比ORの場合は、OR/[1 – CER×(1 – OR)]でリスク比RRに変換し、ハザード比HRの場合は、[1 – exp{HR×ln(1 – CER)}]/CERでリスク比RRに変換します。リスク比RRからは、CER×(1 – RR)で絶対効果の値が得られます。この値は、リスク差あるいは絶対リスク減少に相当し、100倍すれば100人あたり、1000倍すれば1000人当たり、10000倍すれば10000人当たりの効果が確認できる人数が得られることになります。expはexponential、lnは自然対数です。

益と害のバランスあるいは正味の益、絶対効果、絶対リスク、ベースラインリスク、ハザード率とハザード比とイベント率、アウトカムの重要性と価値観、これらについて理解したうえで、Multi-Criteria Decision Analysis (MCDA)多基準決断分析、Quantitative Benefit-Risk AnalysisあるいはQuantitative-Benefit Harm Analysis定量的な益と害の分析について理解することは、推奨作成において今後より重要になると思います。 定量的な益と害の分析について は、すでにこれまで解説してきましたが、まだ解説していないGail/NCIの方法も含めて、より総合的にわかりやすく解説したいと思っています。今回は、図1と図2をどこまで理解できるか、考えてみてください。

  • Gail MH, Costantino JP, Bryant J, Croyle R, Freedman L, Helzlsouer K, Vogel V: Weighing the risks and benefits of tamoxifen treatment for preventing breast cancer. J Natl Cancer Inst 1999;91:1829-46. PMID: 10547390 
  • Multi-Criteria Decision Analysis (MDCA)>
  • Multi-Criteria Decision Analysis (MCDA)のステップ >
  • Keeney and RaiffaのSwing weightingを用いたMCDA >
  • Swing weightingを用いたMCDAの結果 >
  • EMAのBenefit-risk methodology >
  • FDAのBenefit-Risk Assessment Framework >
  • FDAのBenefit-Risk Assessment(続き) >

前立腺癌のPSAによるスクリーニング

US Preventive Services Task Force (USPSTF)は55歳から69歳までの男性の前立腺癌のPSA (Prostate Specific Antigen)の定期的検査によるスクリーニングは個別に適用すべきであると、その推奨GradeはCになっています。

一方、前立腺癌の発症は数多くの遺伝子がかかわっているpolygenicな機序によることが明らかにされています(1)。Schumacher FRが筆頭著者ですが、この研究には世界中の139施設が参加しており、多数の著者による、国際規模の一大研究の論文です。

さて、2019年Callender Tらは年齢とpolygenic profileに基づき、前立腺癌のリスクを推定し、リスクの程度によってPSAによるスクリーニングの有効性を解析した論文を発表しました(2)。10年の前立腺癌の発症リスクが4%になると、上記の年齢で4年ごとのPSAスクリーニングと比べ、過剰診断が3分の1減少するが、死亡は6.3%少ないだけという結果でした。費用対効果もすぐれており、一律にPSA測定によるスクリーニングを行うより、リスクで層別化して一定の閾値以上の場合、スクリーニングを実施べきではないかという結論です。

ポピュレーション全体で解析するとベネフィットがハーム(益が害)を上回るといえない場合でも、一定以上のリスクの亜群(Subpopulation)では正味の益が得られるということは他の状況でもありえます。Precision Medicineの方向へ進むことが必要なことは明らかです。それをどのような方法で証明するのか、どのような研究手法が必要なのか、考える必要があります。Callender Tらの研究は、”Benefit-harm and cost-effectiveness modelling study”とタイトルにも書かれている通り、実際に新たなデータを収集した訳ではありませんが、意思決定に有用ではないかと思います。

文献:
(1) Schumacher FR, Al Olama AA, Berndt SI, et al: Association analyses of more than 140,000 men identify 63 new prostate cancer susceptibility loci. Nat Genet 2018;50:928-936. PMID: 29892016
(2) Callender T, Emberton M, Morris S, Eeles R, Kote-Jarai Z, Pharoah PDP, Pashayan N: Polygenic risk-tailored screening for prostate cancer: A benefit-harm and cost-effectiveness modelling study. PLoS Med 2019;16:e1002998. PMID: 31860675

Bias adjustment thresholds

2019年にAnnals of Internal MedicineにPhillippo DMらからネットワークメタアナリシスによるエビデンスの確実性からさらに臨床決断へのバイアスの影響を評価する方法について新しい手法が報告されました(1)。GRADE (Grading of Recommendations Assessment, Development and Evaluation)のエビデンス総体の確実性の評価方法(2, 3)と比較した結果が述べられています。

Bias adjustment thresholdsを用いる方法です。GRADEアプローチではバイアスリスク、非直接性、不精確性、非一貫性、出版バイアスを評価し、複数の研究をまとめたエビデンス総体の確実性の評価を行いますが、直接、臨床決断あるいは推奨への影響を評価するわけではありません。Phillippo DMらの方法では、臨床決断を逆転させるバイアスの閾値を評価し、実際の研究の結果に対してそれ以上のバイアスの影響があるかどうかを判断して、臨床決断が逆転しうるかどうかを解析しています。実際にGRADEの方法を用いた場合と異なる結論が得られることが示されています。

Phillippo DMらの論文は、もともと2016年に発表された同じグループのCaldwell DMらの論文(4)がもとになっています。さらに、2018年にはJournal of Royal Statistical SocietyのSeries AにPhillippo DM, Dias S, Ades AEらの論文(5)として発表されています。Journal of Royal Statistical Societyには2009年にTurner RMらのバイアスの定量的モデル化の論文(6)が発表されており、当然のことながら引用されています。

ネットワークメタアナリシスだけでなく通常のペア比較のメタアナリシスについても同じ手法が適用可能です。非常に重要な論文だと思います。

文献:
(1) Phillippo DM, Dias S, Welton NJ, Caldwell DM, Taske N, Ades AE: Threshold Analysis as an Alternative to GRADE for Assessing Confidence in Guideline Recommendations Based on Network Meta-analyses. Ann Intern Med 2019;170:538-546. PMID: 30909295
(2) Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schünemann HJ: GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol 2013;66:151-7. PMID: 22542023
(3) Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH: GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64:401-6. PMID: 21208779
(4) Caldwell DM, Ades AE, Dias S, Watkins S, Li T, Taske N, Naidoo B, Welton NJ: A threshold analysis assessed the credibility of conclusions from network meta-analysis. J Clin Epidemiol 2016;80:68-76. PMID: 27430731
(5) Phillippo DM, Dias S, Ades AE, Didelez V, Welton NJ: Sensitivity of treatment recommendations to bias in network meta-analysis. J R Stat Soc Ser A Stat Soc 2018;181:843-867. PMID: 30449954
(6) Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. PMID: 19381328

下の図を見て、バイアスの効果についてちょっと考えてみてください。

Bias effects. RR: Risk Ratio; Log (Natural logarithm) of RR normally distribute and are additive, while on ratio scale RR is multiplicative.