前立腺癌のPSAによるスクリーニング

US Preventive Services Task Force (USPSTF)は55歳から69歳までの男性の前立腺癌のPSA (Prostate Specific Antigen)の定期的検査によるスクリーニングは個別に適用すべきであると、その推奨GradeはCになっています。

一方、前立腺癌の発症は数多くの遺伝子がかかわっているpolygenicな機序によることが明らかにされています(1)。Schumacher FRが筆頭著者ですが、この研究には世界中の139施設が参加しており、多数の著者による、国際規模の一大研究の論文です。

さて、2019年Callender Tらは年齢とpolygenic profileに基づき、前立腺癌のリスクを推定し、リスクの程度によってPSAによるスクリーニングの有効性を解析した論文を発表しました(2)。10年の前立腺癌の発症リスクが4%になると、上記の年齢で4年ごとのPSAスクリーニングと比べ、過剰診断が3分の1減少するが、死亡は6.3%少ないだけという結果でした。費用対効果もすぐれており、一律にPSA測定によるスクリーニングを行うより、リスクで層別化して一定の閾値以上の場合、スクリーニングを実施べきではないかという結論です。

ポピュレーション全体で解析するとベネフィットがハーム(益が害)を上回るといえない場合でも、一定以上のリスクの亜群(Subpopulation)では正味の益が得られるということは他の状況でもありえます。Precision Medicineの方向へ進むことが必要なことは明らかです。それをどのような方法で証明するのか、どのような研究手法が必要なのか、考える必要があります。Callender Tらの研究は、”Benefit-harm and cost-effectiveness modelling study”とタイトルにも書かれている通り、実際に新たなデータを収集した訳ではありませんが、意思決定に有用ではないかと思います。

文献:
(1) Schumacher FR, Al Olama AA, Berndt SI, et al: Association analyses of more than 140,000 men identify 63 new prostate cancer susceptibility loci. Nat Genet 2018;50:928-936. PMID: 29892016
(2) Callender T, Emberton M, Morris S, Eeles R, Kote-Jarai Z, Pharoah PDP, Pashayan N: Polygenic risk-tailored screening for prostate cancer: A benefit-harm and cost-effectiveness modelling study. PLoS Med 2019;16:e1002998. PMID: 31860675

Bias adjustment thresholds

2019年にAnnals of Internal MedicineにPhillippo DMらからネットワークメタアナリシスによるエビデンスの確実性からさらに臨床決断へのバイアスの影響を評価する方法について新しい手法が報告されました(1)。GRADE (Grading of Recommendations Assessment, Development and Evaluation)のエビデンス総体の確実性の評価方法(2, 3)と比較した結果が述べられています。

Bias adjustment thresholdsを用いる方法です。GRADEアプローチではバイアスリスク、非直接性、不精確性、非一貫性、出版バイアスを評価し、複数の研究をまとめたエビデンス総体の確実性の評価を行いますが、直接、臨床決断あるいは推奨への影響を評価するわけではありません。Phillippo DMらの方法では、臨床決断を逆転させるバイアスの閾値を評価し、実際の研究の結果に対してそれ以上のバイアスの影響があるかどうかを判断して、臨床決断が逆転しうるかどうかを解析しています。実際にGRADEの方法を用いた場合と異なる結論が得られることが示されています。

Phillippo DMらの論文は、もともと2016年に発表された同じグループのCaldwell DMらの論文(4)がもとになっています。さらに、2018年にはJournal of Royal Statistical SocietyのSeries AにPhillippo DM, Dias S, Ades AEらの論文(5)として発表されています。Journal of Royal Statistical Societyには2009年にTurner RMらのバイアスの定量的モデル化の論文(6)が発表されており、当然のことながら引用されています。

ネットワークメタアナリシスだけでなく通常のペア比較のメタアナリシスについても同じ手法が適用可能です。非常に重要な論文だと思います。

文献:
(1) Phillippo DM, Dias S, Welton NJ, Caldwell DM, Taske N, Ades AE: Threshold Analysis as an Alternative to GRADE for Assessing Confidence in Guideline Recommendations Based on Network Meta-analyses. Ann Intern Med 2019;170:538-546. PMID: 30909295
(2) Guyatt G, Oxman AD, Sultan S, Brozek J, Glasziou P, Alonso-Coello P, Atkins D, Kunz R, Montori V, Jaeschke R, Rind D, Dahm P, Akl EA, Meerpohl J, Vist G, Berliner E, Norris S, Falck-Ytter Y, Schünemann HJ: GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes. J Clin Epidemiol 2013;66:151-7. PMID: 22542023
(3) Balshem H, Helfand M, Schünemann HJ, Oxman AD, Kunz R, Brozek J, Vist GE, Falck-Ytter Y, Meerpohl J, Norris S, Guyatt GH: GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol 2011;64:401-6. PMID: 21208779
(4) Caldwell DM, Ades AE, Dias S, Watkins S, Li T, Taske N, Naidoo B, Welton NJ: A threshold analysis assessed the credibility of conclusions from network meta-analysis. J Clin Epidemiol 2016;80:68-76. PMID: 27430731
(5) Phillippo DM, Dias S, Ades AE, Didelez V, Welton NJ: Sensitivity of treatment recommendations to bias in network meta-analysis. J R Stat Soc Ser A Stat Soc 2018;181:843-867. PMID: 30449954
(6) Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. PMID: 19381328

下の図を見て、バイアスの効果についてちょっと考えてみてください。

Bias effects. RR: Risk Ratio; Log (Natural logarithm) of RR normally distribute and are additive, while on ratio scale RR is multiplicative.

Patient preference information – Best-worst scaling exercise

FDAのRegulatory ReviewにおいてPatient preference informationが重要になってきています。患者の選好に関する研究Patient preference studiesも盛んになってきており、患者の選好を測定するさまざまな方法が報告されています。

1. Validity and Reproducibility of Existing Methods.
2. Effect of Method Choice on Study Results.
3. Effect of Sample Composition on Study Results.
4. Effect of Attribute Inclusion or Exclusion on Study Results.
5. Effect of Communication Style and Methods on Study Results.

これらの項目について現時点での課題と、将来の発展について Levitan BらがPatientというジャーナルのEditorialで述べています。
Levitan B, Hauber AB, Damiano MG, Jaffe R, Christopher S: The Ball is in Your Court: Agenda for Research to Advance the Science of Patient Preferences in the Regulatory Review of Medical Devices in the United States. Patient 2017;10:531-536. PMID: 28831745

以前の投稿で述べましたが、List of methods included in the Catalog に、Preference選好の評価法に関してさまざまな方法がまとめられています。
Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Ho Mらの論文の方法の一覧表にも出ていますが、Peay HLらによると、Best-worst scaling exercises 最善最悪スケーリングエクササイズはStated preference表明選好に分類され、Conjoint analysis and discrete-choice experiments コンジョイント分析および離散選択分析よりも理解しやすく簡単に施行できるということです。
Peay HL, Hollin I, Fischer R, Bridges JF: A community-engaged approach to quantifying caregiver preferences for the benefits and risks of emerging therapies for Duchenne muscular dystrophy. Clin Ther 2014;36:624-37. PMID: 24852596

複数のAttributeあるいはアウトカムに2-3個のレベルが設定され、それらを数個ずつ組み合わせ、すべての組み合わせについて、評価者に最善と最悪の項目を選ばせて、解析し、重要度をスコア化する方法です。Peay HLらの論文では簡単な集計でも信頼できる結果が得られると述べられています。

Louviere JJ, Flynn TN, Marley AAJ : Best-Worst Scaling: Theory, Methods and Applications. 2015, Cambridge University Press.の著者のひとりであるFlynn TNはBest-worst scaling exercisesの第一人者のようです。

Swing weightingを用いたMCDAの結果

アウトカムOutcome=評価項目Criteriaの重要度の設定にSwing weightingという方法を用いた、成人の急性虫垂炎の抗菌薬投与による保存的治療と外科的虫垂切除の比較の例について紹介しました。参照:Keeney and Raiffaの方法 急性虫垂炎の例 その解析結果を示します。

まず、再発が無いことを重要視する場合です。下のグラフでアウトカムの右側の数字が設定した重みの値です。重みは0~100の範囲の値で、一番重要と考えたアウトカムは100に設定されます。それ以外のアウトカムには、それに対して相対的な値を設定します。

図1.アウトカムの右側に重みの値を示します。黒が外科的虫垂切除、赤が抗菌薬投与による保存的治療。

このような重みづけの組み合わせの場合は、再発が無いことを一番重要と考えていることになりますが、MCDAの結果では、次の様に外科的虫垂切除の方が総スコアAggregate scoreが高くなりました。分布は効果推定値=パラメータの不確実性を全体として反映していますが、各パラメータの間の共分散も含めて分散に掛け算される係数の値も取り込んだ総計に基づき計算しています。

効果推定値は各群の率あるいは平均値で、それらを4つの研究からメタアナリシスの手法でまとめた統合値を用いています。図1の黒の三角が外科的虫垂切除の場合、赤の三角が抗菌薬投与による保存的治療の場合です。率については正規分布に近似することを前提に分散の逆数で重みづけしたランダム効果モデルによる統合値と標準誤差、連続変数の平均値の場合は、分散の逆数で重みづけしたランダム効果モデルによる統合値と標準偏差の値を用いました。最善値、最悪値は二つの選択肢における95%信頼限界の最大値あるいは最小値を用いてスコアリングを行っています。

もし図1で黒または赤の三角のいずれかがすべてのアウトカムで矢じりの側にあれば、それだけでどのような重みづけの場合でも、その介入の方を選択すべきだとわかります。今回の例では、アウトカム毎に相対的位置が異なっており、トレードオフのあることがわかります。

また、もしすべてのアウトカムに対して、ありうる最善の効果の介入があるとしたら、総スコアは100になりますし、すべてのアウトカムに対してありうる最悪の効果の介入があるとしたら0になります。

図2.介入群:抗菌薬投与による保存的治療と対照群:外科的虫垂切除の総スコアの確率密度分布。

さらに、二つの選択肢の総スコアの差を求めると、外科的虫垂切除を対照としているので、介入―対照の値はマイナスとなり(対照の外科的切除の総スコアの方が大きい)、外科的虫垂切除の方が望ましいという結果になります。その差がプラスになり、介入すなわち抗菌薬投与による保存的治療の総スコアが上回る確率は0.032です。

従って、このような価値観を持つ人の場合は、外科手術を希望するでしょうし、このMCDAの結果もそれを支持しています。

図3.介入―対照の総スコアの差の分布。

それぞれのアウトカムに対する重みを0から100の間で10ずつ変動させた場合にどうなるか見た、つまり感度分析の、結果が次のグラフです。一つのアウトカムの重みを変える場合、それ以外のアウトカムに対する重みは最初に設定した値のままです。それぞれのグラフで青い点線で示すところが、すべてのアウトカムの重みが最初に設定した値の場合に相当します。縦のバーは95%信頼区間を示します。

図4.感度分析:総スコアと95%信頼区間。黒が外科的虫垂切除、赤が抗菌薬投与による保存的治療。

このグラフを見ると、1ヶ月以降1年以内の再発と1か月以内の手術、および費用は重みを変動させるとそれ以外のアウトカムの重みは変えない場合、総スコアが逆転し、抗菌薬投与による保存的治療の総スコアの方がより大きくなりうることがわかります。ただし、費用の重みを50以上にすると、抗菌薬投与による保存的治療の総スコアが外科的虫垂切除の総スコアを上回りますが、1ヶ月以降1年以内の再発や1か月以内の手術といった健康関連アウトカムに対して、費用の重みを50まで増加させることは非常に考えにくいと思います。

それでは、一か月以内に手術を受けないで済むことにもう少し価値を置く場合はどうなるでしょうか。次の図のような重みの場合です。上記の場合とは1ヶ月以内の虫垂切除の重みを20から60に変えたところが違います。他のアウトカムの重みは同じです。

図5.1ヶ月以内の手術の重みを増やした場合。黒が外科的虫垂切除、赤が抗菌薬投与による保存的治療。図1と同じグラフでアウトカムの右に書かれている重みの値が異なる。
図6.2つの選択肢の総スコアはほとんど差がない。。

こうすると、2つの選択肢の総スコアはほとんど同じになります。

差でみても同様です。

図7.抗菌薬投与による保存的治療の総スコア – 外科的虫垂切除の総スコアの分布。

すなわち、1ヶ月以降1年以内の再発は嫌だから、それを一番重要なアウトカムと考えるが、手術を受けないで済めばそれに越したことはない、というような価値観の人の場合は、どちらがいいか迷うでしょう。このMCDAの結果もそれを支持しているように見えます。どちらの治療選択肢でも価値に大差はないと考えられます。あるいは、再発もなく、手術も受けないで済むという、両方の良いとこ取りはできないということでもあります。

各アウトカムに対する重みを変動させた場合のグラフは次の通りです。この場合は、1ヶ月以内の虫垂切除の重みをより大きくすれば抗菌薬投与による保存的治療の総スコアが外科的虫垂切除の総スコアを上回ります。つまり、外科手術は受けたくないという気持ちが強い場合は抗菌薬投与による保存的治療の総スコアがより大きくなるということです

図8.感度分析:各アウトカムの重みを変動させた場合。

そして、1ヶ月以内に手術を受けないで済むことに対する重みを100にして、1ヶ月以降1年以内の再発の重みを70にした場合はどうなるでしょうか。この場合は、できるだけ手術を受けないで済むことに最も大きな価値を置くが、再発はある程度許容するという価値観になると思います。

図9.1ヶ月以内に手術を受けないで済むことを最も重要視する場合。黒が外科的虫垂切除、赤が抗菌薬投与による保存的治療。図1、5と同じグラフでアウトカムの右に書かれている重みの値が異なる。

この場合は、当然と言えば当然ですが、抗菌薬投与による保存的治療の総スコアが外科的虫垂切除の総スコアを上回ります。

図10.総スコアの差でみても同様です。

図11.抗菌薬投与による保存的治療の総スコアが外科的虫垂切除の総スコアを上回る確率はほぼ1になる。

各アウトカムの重みを変動させた場合のグラフは次の通りです。この場合も、1ヶ月以内に手術を受けることの重みを変動させると、逆転が生じます。

図12.感度分析:アウトカムの重みを変動させた場合の総スコア変動。

さて、これらの解析結果を見ると、Keeny and RaiffaのSwing weightingを用いるMCDA (Multi-Criteria Decision Analysis)はアウトカムの重みづけと総スコアの関係が納得できるものであり、人が感じる価値を正確にとらえることができる方法ではないかと思えます。しかも、元の尺度が異なる値を統合して総スコア化でき、それが人の感覚とよく符合するということは、優れた決断モデルであり、優れた決断分析の手法であると考えられます。なお、ここで示した分析はRを用いて管理者が作成したスクリプトで行いました。