正味の益が反転しない閾値:効果推定値とアウトカムの重要度

T個の介入があるとし、介入iの効果を介入jすなわち対照と比較したランダム化比較試験でK個のアウトカムに対する効果がリスク差で得られたとする。そこで、ペアで正味の益を比較するとする。(i, j, T, K, Lは整数)。

図1. 正味の益の反転閾値:効果推定値、アウトカムの重要度。

リスク差Eijは介入i、すなわち介入の絶対リスク(イベント率)から介入j、すなわち対照の絶対リスク(イベント率)を引き算した値とする。従って、もし、有害な事象がアウトカムの内容で、Eijがプラスの値であれば、効果は害であり、逆にEijがマイナスの値であれば、益である。もし、有益な事象がアウトカムの内容の場合は、その逆で、Eijがプラスの値であれば、益であり、マイナスの値であれば害となる。ただし、リスク差は介入の絶対リスク-対象の絶対リスクとして計算することをルールとする。

効果推定値と効果の望ましさの関係をもう一度考えてみると、リスク差Eijの値が大きくなる方が望ましい効果の場合は、有益事象がアウトカムの内容であり、逆にEijが小さい方が望ましい効果の場合は、有害事象がアウトカムの内容である。アウトカムの内容とは、測定されたアウトカム事象と言い換えてもいい。正味の益がプラスになれば望ましい効果が望ましくない効果を上回り、マイナスになれば望ましくない効果が望ましい効果を上回るようにするために、アウトカムkに対する係数Fkをアウトカムの内容が有益事象の場合は1、有害事象の場合は-1に設定する。

アウトカムkに対する重要度wkは0~100の値を設定する。最も重要なアウトカムに100を設定し、その他のアウトカムに対しては相対的な重要度を0~100の数値として設定する。アウトカムの重要度は評価者がそのアウトカムに置く価値の大きさであり、評価者の価値観によって決まるので、評価者ごとに異なる主観的なものである。もし、最も重要なアウトカムが100であるアウトカムの重要度が20に設定すると、最も重要なアウトカムはそのアウトカムの5倍重要とみなしたことになる。もし、どちらも益のアウトカムであった場合、そのアウトカムが5人に生起した価値は最も重要なアウトカムが1人に生起した価値と同じと考えたことになる。なお、Gail/NCIのオリジナルの方法では重要度を重要、中等度、重要でないの3段階で、1, 0.5, 0という値を設定する。さらに、感度分析では例えば、1,0.5,0.25/1.0,1.0,1.0/1.0,1.0,0など異なる値を設定する。

アウトカムの重要度をそれぞれアウトカムの重要度の総和で割り算して、標準化した値がwskである。標準化することによって、アウトカムの数を増やしても正味の益NBの値の絶対値は最大で100を超えることが無くなる。また、最も重要なアウトカムの重要度に対する比の値を用いることもできる。その場合は、正味の益は最も重要なアウトカムに相当する価値のアウトカムが生起した対象者の割合または人数を表すことになる。なお、アウトカムの重要度と価値は同じ意味であり、文脈により使い分けられる。

正味の益NB(Net Benefit)は図1でNBとして示す式で計算される。各アウトカムごとにFk、標準化した重要度、リスク差を掛け算した値をすべてのアウトカムについて加算し、総和を求めた値になる。効果の大きさをアウトカムの重要度で重みづけした総和と言える。ただし、望ましい効果はプラス、望ましくない効果はマイナスになるようにして総和を求める。なお、正味の益net benefitと益と害のバランス benefit-harm balanceは同じ意味である。また、Benefit-harmではなくBenefit-riskあるいはRisk-benefitという用語が用いられる場合もある。

アウトカム1~Tの中の一つ、アウトカムLの効果推定値=リスク差について、正味の益NBが正負逆転する閾値は、正味の益からアウトカムLについて、Fk、標準化した重要度、リスク差を掛け算した値を引き算して、正負を逆にし、それをアウトカムLの標準化した重要度wslで割り算することで求められる。アウトカムLについて、Fk、標準化した重要度、リスク差を掛け算した値は、介入により得られる分の効果を表している。このように閾値を求める場合、そのアウトカム以外のアウトカムに対するリスク差と重要度の値は同じのままということが前提である。

アウトカムLの重要度について、正味の益NBが正負逆転する閾値は、正味の益からアウトカムLについて、Fk、標準化した重要度、リスク差を掛け算した値を引き算して、正負を逆にし、それをアウトカムLのリスク差EijLで割り算することで求められる。この場合、上記の場合と同様、そのアウトカム以外のアウトカムに対するリスク差と重要度の値は同じのままということが前提である。

図2.正味の益が反転しない効果推定値 EijL、アウトカムの重要度wLの範囲。

正味の益が反転しない、効果推定値(リスク差)の範囲、および、アウトカムの重要度の範囲は、アウトカムLに対するリスク差EijLと閾値の大小関係から容易に知ることができる(図2)。

EijLの正味の益が反転しない範囲は、EijLが閾値より大きければ、閾値から1までの範囲が正味の益が反転しない効果推定値(リスク差)の範囲となる。逆に、EijLが閾値より小さければ、-1から閾値までの範囲が正味の益が反転しない効果推定値(リスク差)の範囲となる。

いずれの場合であれ、この範囲外の効果推定値が得られる可能性が低ければ、アウトカムLに対する効果推定値が変動したとしても正味の益が反転する可能性は低いと考えていいことになる。効果推定値の95%信頼区間とバイアスリスク、非直接性、非一貫性、出版バイアスなどを考慮しても、この範囲外の値になる可能性がほとんどないと言えるくらい低ければ、そのアウトカムに関するエビデンス総体のエビデンスの確実性は高いと判断できる。

アウトカムの重要度については、アウトカムLに対して設定した重要度wLの値が、閾値より大きい場合は、閾値から(もし閾値がマイナスの値の場合は0から)100までの範囲が正味の益が反転しないアウトカムの重要度の範囲となる。逆に、重要度wLが閾値より小さい場合は、0から閾値まで(もし閾値が100以上の場合は100まで)の範囲が正味の益が反転しない範囲となる。

重要度についても、この範囲外の値がありえない値と考えられる場合、アウトカムの重要度を変動させても、正味の益が反転する可能性は低いと考えることができる。特に、効果の大きさが小さい場合は、そのような範囲になる可能性が高くなる。アウトカムの重要度の判定は個人差があるが、その振れ幅を考慮しても正味の益が反転する可能性が低ければ、大部分の人に適用しても価値観の相違による問題は起きないであろうと考えることができる。

ここで述べた方法は、”閾値分析 “Threshold analysis“と呼ばれ(Phillippo DM 2019)、エビデンスの確実性の評価、正味の益の確実性の評価に有用と考えられる。

文献:

Gail MH, Costantino JP, Bryant J, Croyle R, Freedman L, Helzlsouer K, Vogel V: Weighing the risks and benefits of tamoxifen treatment for preventing breast cancer. J Natl Cancer Inst 1999;91:1829-46. doi: 10.1093/jnci/91.21.1829 PMID: 10547390
URL: https://pubmed.ncbi.nlm.nih.gov/10547390/

MCDAについて広く解説されている。Keeney & Raiffaの方法の実例の解説がある。

Thokala P, Devlin N, Marsh K, Baltussen R, Boysen M, Kalo Z, Longrenn T, Mussen F, Peacock S, Watkins J, Ijzerman M: Multiple Criteria Decision Analysis for Health Care Decision Making-An Introduction: Report 1 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:1-13. PMID: 26797229
URL: https://pubmed.ncbi.nlm.nih.gov/26797229/

上記のThokala Pの報告の後半に相当し、ISPORの公式の報告として出版されている。

Marsh K, IJzerman M, Thokala P, Baltussen R, Boysen M, Kalo Z, Lonngren T, Mussen F, Peacock S, Watkins J, Devlin N, ISPOR Task Force: Multiple Criteria Decision Analysis for Health Care Decision Making-Emerging Good Practices: Report 2 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:125-37. PMID: 27021745
URL: https://pubmed.ncbi.nlm.nih.gov/27021745/

効果推定値の不確実性から正味の益の不確実性を推定する方法。

Wen S, Zhang L, Yang B: Two approaches to incorporate clinical data uncertainty into multiple criteria decision analysis for benefit-risk assessment of medicinal products. Value Health 2014;17:619-28. PMID: 25128056
URL: https://pubmed.ncbi.nlm.nih.gov/25128056

GRADEワーキンググループの益と害のバランス=正味の益に関するコンセプトペーパー。Certainty of net benefitという考えは、USPSTFと同じで、推奨の強さを決める主要要素。Appendixに具体的な計算法が記載されている。

Alper BS, Oettgen P, Kunnamo I, Iorio A, Ansari MT, Murad MH, Meerpohl JJ, Qaseem A, Hultcrantz M, Schunemann HJ, Guyatt G, GRADE Working Group: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. PMID: 31167868
URL: https://pubmed.ncbi.nlm.nih.gov/31167868/

定量的ベネフィット・リスク分析に関するISPORの公式の報告。実際的な手順を解説。

Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055
URL: https://pubmed.ncbi.nlm.nih.gov/37005055/

患者の嗜好を取り入れるための枠組みに関する、規制当局のコンソーシアムの報告書。アウトカムの重要度を決める様々な方法のリストがある。

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701
URL: https://pubmed.ncbi.nlm.nih.gov/27712701/

Phillippo DM, Dias S, Welton NJ, Caldwell DM, Taske N, Ades AE: Threshold Analysis as an Alternative to GRADE for Assessing Confidence in Guideline Recommendations Based on Network Meta-analyses. Ann Intern Med 2019;170:538-546. doi: 10.7326/M18-3542 PMID: 30909295
URL: https://pubmed.ncbi.nlm.nih.gov/30909295/

Eiring Ø, Brurberg KG, Nytrøen K, Nylenna M: Rapid methods including network meta-analysis to produce evidence in clinical decision support: a decision analysis. Syst Rev 2018;7:168. doi: 10.1186/s13643-018-0829-z PMID: 30342549
URL: https://pubmed.ncbi.nlm.nih.gov/30342549/

GRADEアプローチのエビデンスの確実性評価:3種類の文脈化

GRADEアプローチにおけるアウトカムごとのエビデンス総体のエビデンスの確実性の評価方法は、システマティックレビュー(SR)、医療技術評価(HTA)と診療ガイドライン(CPG)作成では、異なります。前2者は最小文脈化アプローチMinimally contextualized appproach、または、部分的文脈化のアプローチPartially contextualized approachを用い、CPGでは完全文脈化のアプローチFully contextualized approachを用います。最小文脈化、部分的文脈化のアプローチでは効果推定値が正しいことに対する確信の程度を決めること、完全文脈化では、各アウトカムに対する介入の効果推定値が推奨を支持する適切さに対する確信の程度を決めることが目的です(表1)。

表1.エビデンス総体のエビデンスの確実性評価と文脈化の程度。


エビデンスの確実性とは:GRADEはエビデンスの確実性を、真の効果が特定の閾値の片側あるいは効果量の選択された範囲にある確実性と定義した」(Schünemann HJ 2022)、あるいは、「GRADEワーキンググループは、個々のアウトカムに対するエビデンスの確実性をレーティングするとき、真の効果が特定の範囲にある、または、ある閾値の片側にあることに、我々がどれくらい確かだと思うかを我々はレーティングしているということを明確にしている」(Hultcrantz M 2017)とされています。

文脈化の程度と他のアウトカムの関連、大・中・小の閾値の設定、正味の益の算出、アウトカムの重要度(価値)の設定、確実性のレーティングの標的の関係を表2に示します。

表2. 文脈化の程度と各アプローチの特徴。

GRADEワーキンググループ(WG)は2017年にエビデンスの確実性の概念(costruct)について論文(Hultcrantz M 2017)を発表しました。その後のWGの議論を踏まえて、2021年の論文(Zeng L 2021)では、エビデンスの確実性評価の実際的なガイダンスについて述べています。そのガイダンスでは、エビデンスの確実性の評価者は、エビデンスの確実性の概念の何を評価するのかを明確にする必要があると述べており、それを確実性のレーティングの標的(the target of their certainty rating)と呼んでいます。

そして、確実性のレーティングの標的は、エビデンスの確実性評価の文脈化の程度によって異なり、最小文脈化のアプローチでは無効果あるいは効果ありの確実性、または、効果推定値が無効果を含むある範囲にある確実性が標的になります。部分的文脈化のアプローチでは閾値の片側にある確実性あるいは信頼区間が大・中・小の臨床的意味のある閾値と交差する数が標的になります。完全文脈化ではさらに、正味の益を明確にしたうえで、信頼区間の上限値、下限値でそれが反転するかどうかを見る(Hultcrantz M 2017)、あるいは、望ましくない効果の上限値の総和への影響を見る(Schünemann HJ 2022)ことになります。

完全文脈化のアプローチを用いる場合、前作業として部分的文脈化のアプローチによる各アウトカムに対する効果推定値の確実性の評価を行うことが勧められています。

大・中・小の閾値を設定する際には、絶対効果を用い、アウトカムの重要度を反映する必要があります。閾値はリスク差×アウトカムの重要度(効用値)をスケールとして用います。

図1.閾値の設定

効果推定値の95%信頼区間がこれら閾値といくつ交差するかによって、エビデンスの確実性をレートダウンします。1つの閾値と交差する場合は、1レベルレートダウン;2つの閾値と交差する場合は、2レベルレートダウン;3つの閾値と交差する場合は、3レベルレートダウンが原則です。

図2.閾値と信頼区間の関係とレートダウン。

効果推定値が大の閾値を超えるようなありそうもない大きな効果を示している場合、あるいは、わずかまたは小さな効果の場合に、Review Information Size(RIS)レビュー情報量を計算する必要があります。大・中・小の閾値に対する必要なRIS、すなわちその大きさの効果を証明に必要なサンプルサイズを計算し、その結果で、実際のサンプルサイズが•大きな効果の閾値より少ない ⇒ 3レベルレートダウン;•中等度の効果の閾値より少ない ⇒ 2レベルレートダウン;•小さな効果の閾値より少ない ⇒ 1レベルレートダウンすることが提案されています。ただし、効果推定値の95%信頼区間の大・中・小の閾値との交差と合わせて慎重に判断する必要があります。

OISは臨床的に意味のある効果推定値を証明するのに必要なサンプルサイズ。エビデンスの確実性の評価で、部分的文脈化あるいは完全文脈化アプローチを用いる場合は、大・中・小の閾値を設定する必要があり、それぞれに対する必要なサンプルサイズを計算するので、RISという用語を用いる。OIS: Optimal Information Size最適情報量; RIS: Review Information Sizeレビュー情報量

閾値の設定は困難な課題ですが、次のような情報を根拠とすることが提案されています:
•効用値と絶対効果から閾値を設定している研究を参照する。
•効用値に関する研究を参照する。
•閾値が用いられた診療ガイドラインを参照する。
•疾患専門家や意思決定に関与する利害関係者が何らかの情報(経験、文献情報)に基づいて、効用値を考えながら閾値を設定する。

また閾値を設定は、まずアウトカムの重要度を設定し、その後に行うべきとされています。以下の点に留意する必要があります:
•アウトカムの重要度をエビデンス評価の前に決めておく。
•アウトカムの重要度を決めてから閾値を設定する。
•アウトカムの重要度に関する新知見が得られたら閾値をアップデートする。
•アウトカムの重要度は少なくとも疾患に特異的であり、相対的な値なので、同じアウトカムがどのような疾患でも同じ価値を持つわけではない。また、介入により取り扱うべきアウトカムが異なることもあるので、同じ疾患でも、他のアウトカムの構成によって同じアウトカムでも異なる値を設定することがありうる。0~100(あるいは0~1.0)の値を設定する。

また連続変数アウトカムの場合の閾値の設定に関しては以下の提案がされています:
•大・中・小の閾値に関する経験的推定値がある場合、それを用いる。例:Chronic Respiratory Questionnaire 7ポイントスケールの場合、0.5, 1.0, 1.5; Visual Analogue Scaleの場合6, 10, 14
•Minimally Important Difference (MID)の推定値が得られる場合、それを小さい効果の閾値として用いる。
•標準化平均値差(SMD)を用いて、SMD 0.2, 0.5, 0.8に閾値を設定する。
•何らかの情報に基づく専門家の推定値。

#################################

Hultcrantz M 2017で述べられていた完全文脈化のアプローチのステップは以下の様になります:

1.絶対効果の大きさとアウトカムの重要性の積の総和として正味の益を計算する(Alper BS 2019)。
2.各アウトカムに対する絶対効果の上限値と下限値で正味の益が逆転するかを見る。(逆転の閾値は0または評価者が設定した値)。
3.逆転する場合は、そのアウトカムに対する効果の不精確性をレートダウンし、(他のエビデンスの確実性評価ドメインと合わせて)エビデンス総体のエビデンスの確実性をレートダウンする。

なお、連続変数アウトカムの場合はそのままでは正味の益の計算に含めることはできません。

#################################

Schünemann HJ 2022の論文で述べられている完全文脈化のアプローチのステップは以下の様になります:

0.  部分的文脈化アプローチで各アウトカムに対する効果推定値の不精確性の評価を行う。
1.益のアウトカムに対する効果推定値の95%信頼区間下限値に基づいてありうる最小の望ましい絶対効果量を特定する。
2.害のアウトカムに対する効果推定値の95%信頼区間上限値に基づいてありうる最大の望ましくない絶対効果量を特定する。
3.最小の望ましい効果を集約(aggregate)し、それに基づいて介入を推奨するのに許容しうる最大のありうる望ましくない効果の総和(overall)を決める(必要に応じて費用なども考慮する)。個々の望ましくないアウトカムに対する効果のありうる最大値に基づいて不精確性のレーティングを変更する必要があるかを決めるのにこの総和の閾値を考慮する。複数の望ましくない効果がある場合、これを各アウトカムについて個別に、あるいは集積した上で、行わなければならないことに留意する。
4.望ましくない効果の信頼区間が、許容しうる最大のありうる望ましくない効果の閾値と重なるかどうかを判定する。もし「はい」なら、完全文脈化アプローチの精確性のレーティングは変更されない。益と害のバランスが確実でないかもしれない、すなわち、明確な正味の望ましい健康効果がないため、ガイドライン委員会は通常、条件付推奨とする。
5.閾値が交差しない場合、不精確性に基づく不確実性は決定に影響を与えない可能性があり、正味の望ましい効果があるため、望ましい効果と望ましくない効果に対する不精確性の確実性を下げることは、推奨や決断のために必要ないであろう(これはまれであろう)。そして、総体のエビデンスの確実性が全体として中または高い場合、ガイドライン委員会は多くの場合、強い推奨とする。エビデンス全体の確実性が非常に低いか低い場合、たとえ正味で望ましい効果があったとしても、ガイドライン・パネルは通常、条件付き推奨とする。
注)例を挙げていないが、仮に、部分的に文脈化されたアプローチを用いて、どのアウトカムも不精確性で格下げが行われなかったとしても、すべての望ましいアウトカムまたはすべての望ましくないアウトカムの不確実性の累積が、望ましいアウトカムまたは望ましくないアウトカムの累積効果を不精確にする可能性がある。すべての望ましい結果または望ましくない結果を組み合わせた後の累積不確実性が非常に大きく、信頼区間が閾値を超えるような場合には、1つまたは複数の主要なアウトカムの不精確性を理由とした格下げが正当化される可能性がある。

なお、同論文には部分的文脈化のアプローチのステップも記述されていますので、必要に応じて、参照してください。

#####################################

完全文脈化のアプローチは複雑で、実行も容易とは思えません。各アウトカムに対する効果推定値の95%信頼区間の幅を評価する際に、大・中・小の区切りを閾値として設定するだけの様にも見えますし、大・中・小の閾値の設定はアウトカムの重要度の設定と同じように、個人によって差が出てくるように思えます。また、もともと絶対効果が小さい、あるいは、重要度が低いアウトカムに対する効果推定値の不確実性は、意思決定あるいは推奨に影響しない可能性が高く、エビデンスの確実性の厳密な評価をする意義が低くなると思います。

文献:
Hultcrantz M, et al: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

Alper BS, et al: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. doi: 10.1007/s11882-011-0185-8 PMID: 31167868

Zeng L, et al: GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. J Clin Epidemiol 2021;137:163-175. doi: 10.1016/j.jclinepi.2021.03.026 PMID: 33857619

Schünemann HJ, et al: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

連続変数を二値化したスコアにする:閾値による割合スコア

連続変数を標準化することで、0~1の範囲の値に変換し、異なるアウトカムに関する効果推定値を互いに比較できるようにする方法について解説しました。もし、正規分布に従うことを仮定できるのであれば、閾値を設定して、曲線下の面積を比較することで、効果の大きさを表すことができるはずです。対照に対する介入の正味の益を計算したい場合、二値変数アウトカムと連続変数アウトカムの両方ある場合、連続変数を二値化したスコアにすることで、望ましい効果が得られた、あるいは、望ましくない効果が起きた対象者の割合を表すことができ、二値変数アウトカムと同じように扱えるはずです。そのアウトカムの重要度の設定もやりやすくなるはずです。


例えば、対照群と介入群の平均値と標準偏差から、望ましい値の下限値を閾値として設定すると、介入により、望ましい値の範囲に含まれる対象者の割合の変動を計算することができます。つまり、対照群と介入群の、絶対リスクの値と標準偏差の値が、分かれば、例えば、Rでの関数はpnorm(閾値,平均値,標準偏差)、あるいは、Excelでの関数はNORM.DIS(閾値,平均,標準偏差,TRUE)を用いて計算することができます。

Rのスクリプトであれば、以下の様に記述できます。

S=(1-pnorm(Th,Eik,SDik))-(1-pnorm(Th,Ejk,SDjk))=pnorm(Th,Ejk,SDjk)-pnorm(Th,Eik,SDik)

Excelの式であれば、以下の様になります。

=(1-NORM.DIST(Th,Eik,SDik,TRUE))-(1-NORM.DIST(Th,Ejk,SDjk,TRUE))

すなわち、

=NORM.DIST(Th,Ejk,SDjk,TRUE)-NORM.DIST(Th,Eik,SDik,TRUE)

閾値による割合(PD)スコアは、もし対象と介入の平均値が同じで、標準偏差も同じであれば、0になります。一方、介入の平均値が正常の平均値になれば、ほぼ1になります。あり得る最小値は0、あり得る最大値は1です。*PD: Proportion Difference

スライドの例は、血清アルブミン値のように、値が大きい方が望ましい連続変数アウトカムです。

例えば、HbA1cの様に、値が小さい方が望ましい連続変数アウトカムの場合は、閾値は正常の上限値に設定するか、臨床的に意義のある値に設定し、以下の式で割合(PD)スコアが計算できます。スライドに示す、値が大きい方が望ましい場合の計算で得られた結果の正負を逆にするのと同じ値になります。

Rのスクリプト:
S=pnorm(Th,Eik,SDik)-pnorm(Th,Ejk,SDjk)

Excelの場合:
=NORM.DIST(Th,Eik,SDik,TRUE)-NORM.DIST(Th,Ejk,SDjk,TRUE)

閾値Thは臨床検査の様に基準値が設定されている場合は、それを用いることが考えられます。また、介入により基準値の範囲にまで、改善することではなく、臨床的に意味のある値を、閾値に設定することも考えられます。

閾値を設定して、望ましい値の範囲に含まれる対象者の割合が介入によりどれだけ増加する、あるいは、減少するかをスコアとして示すことで、二値変数アウトカムの場合のリスク差と同じように取り扱うことができます。アウトカムの重要度の設定も相対的な比較がより容易になると考えられます。

標準化で得られる値は、sjk=0.687, sik=0.726, Sij=0.0393と全く異なります。


連続変数に対して閾値による割合(PD)スコアおよび二値変数はイベント率から正味の益を計算するためのExcelの計算表:あくまで参考資料で、完成版ではありません。。いろいろ値を入力して試すのは構いません。

URL: https://info.zanet.biz/lec/srsz/mcda_score_weight/abs_risk_prop.xlsx

(右クリックしてダウンロードして用いてください)

連続変数アウトカムの場合に、二値変数アウトカムの場合に効果指標として用いられるリスク比、オッズ比、リスク差などに変換する方法はいくつか提案されています(Guyatt GH 2012)。対照群と比較して介入群でどれくらいの効果が示されたかを知りたい訳ですが、連続変数のままでは、どれくらいの割合の人が良い状態になったかについては分かりません。それを知るには、ここで述べたような割合スコアを求めて、介入群の割合-対照群の割を計算してリスク差として評価する方法がひとつの方法です。設定した閾値以上の人の割合がどれくらい変化したか直接知ることができ、益と害の判定がやりやすくなります。

文献:
Guyatt GH, Thorlund K, Oxman AD, Walter SD, Patrick D, Furukawa TA, Johnston BC, Karanicolas P, Akl EA, Vist G, Kunz R, Brozek J, Kupper LL, Martin SL, Meerpohl JJ, Alonso-Coello P, Christensen R, Schunemann HJ: GRADE guidelines: 13. Preparing summary of findings tables and evidence profiles-continuous outcomes. J Clin Epidemiol 2013;66:173-83. doi: 10.1016/j.jclinepi.2012.08.001 PMID: 23116689

(2024.12.16追加)

効果推定値の標準化と正規化

複数のアウトカムに対する介入の効果を対照と比較して、集約し、正味の益 net benefitを計算するには、効果推定値の尺度(スケール)をすべてのアウトカムに対して同じにする必要があります。治癒・非治癒のような二値変数 binary/dichotomous variableの場合は、前回の投稿で解説したように、リスク差を用いれば共通の尺度になり、絶対効果を表し、直線関係が維持されます。しかし、連続変数アウトカムも取り扱う場合は、何らかの方法で変換する必要があります。

また、連続変数アウトカムだけを扱う場合も、複数のアウトカムがあれば、例えば、血清アルブミン値とHbA1cの様に単位が異なる、つまり、尺度が異なる場合、何らかの方法で変換し、共通の尺度にする必要があります。

以上のような変換をスコア化と呼びます。

多疾患を持つ高齢者に対する最善のケアを、いくつかの国、地域別に決めるEUのSELFIEプロジェクトでは、多基準決断分析 Multi-Criteria Decision Analysis (MCDA)により、17の異なる統合ケアプログラムと通常ケアプログラムの総バリュースコアを比較しています。以前そのようなEUのプロジェクトがあるということを紹介しました。アウトカムは、連続変数アウトカムのみで、費用も含まれています。各ケアプログラムの効果の大きさ(パフォーマンス)の尺度を合わせるため、各アウトカムに対する効果推定値に対して、標準化 Standardizationとスウィングウェイティング Swing-weightingという方法を用いて、スコア化を行って、重みづけ加算モデルで総バリュースコアを計算しています。なお、2群間の総バリュースコアの差はいわゆる正味の益に相当します。

標準化 Standardizationは、そのアウトカムに対する、介入群の効果推定値と対照群の効果推定値、すなわち絶対リスクから計算しますが、標準正規分布のZ値を求める計算と同じです。図の②に示す、分母は不偏標準偏差の計算に相当します。標準化によって、効果推定値が正の値だけであれば、0~1の範囲の値のスコアに変換されます。負の値も含まれる場合は、-1~+1の範囲の値に変換されます。

図 正規化 Normalizationと標準化 Standardization

Swing-weightingは正規化 Nomalizationのひとつに相当します。図の①に示すように、あり得る最悪の推定値Wとあり得る最善の推定値Bを設定し、[(E – W)/(B – W)]×100でスコアに変換します。一般に正規化という場合、あり得る最悪の値に対して、最小値、あり得る最善の値に対して、最大値という呼び方をしています。100倍する前の値は、もし効果推定値が正の値だけであれば、0~1の範囲になります。負の値も含める場合は、-1~+1の範囲の値に変換されます。その点では、標準化と同じ範囲の値が得られます。

正味の益を求めるには、スコアに対し、各アウトカムの重要度を掛け算し、総和を計算します。SELFIEプロジェクトでは、スウィングウェイティング Swing-weightingと離散選択実験 Discrete Choice Experiment (DCE)二つの方法が用いられています。

・スウィングウェイティング Swing-weightingでは、最も重要なアウトカムを選択する際に、最悪の効果推定値‐最善の効果推定値の、振れ幅swingが最大のアウトカムを見つけ、そのアウトカム自体の重要度と合わせて、最重要としていいかを考えます。他により重要と思われるアウトカムがある場合、swingよりもそちらを優先して、そのアウトカムを最重要と決めます。そして、最重要のアウトカムを100とし、それ以外のアウトカムの相対的重要性をswingとアウトカム自体の重要性と両方を考慮して、重要度の値を設定していきます。

・離散選択実験 Discrete Choice Experiment (DCE)では、それぞれのアウトカムに対する対照と介入、すなわち2つの介入の効果について、仮想の値を設定し、さまざまな組み合わせを用意しておき、これらの組み合わせのペアを比較しながら、望ましいと思う方を選択させます。多数の被検者からの結果を集計し、回帰分析を適用して、アウトカムの重要度を決めます。

効果推定値には、不確実性が伴っていますが、95%信頼区間が分かっていれば、それらから正味の益の95%信頼区間を計算することができます。確率論的感度分析 Probabilistic Sensitivity Analysis (PSA)がそれに相当します。

正味の益の推定は、GRADEアプローチの完全文脈化Fully contextualized appraochによるエビデンス総体のエビデンスの確実性の評価にも関係があるので、何らかの方法を適用して計算する必要があるのですが、二値変数アウトカムと連続変数アウトカムの両方が含まれる場合には、Swing-weightingのような方法が必要になります。Swing-weightingについては、以前の投稿も参照してください。

文献:
Rutten-van Molken M, Leijten F, Hoedemakers M, Tsiachristas A, Verbeek N, Karimi M, Bal R, de Bont A, Islam K, Askildsen JE, Czypionka T, Kraus M, Huic M, Pitter JG, Vogt V, Stokes J, Baltaxe E, SELFIE consortium: Strengthening the evidence-base of integrated care for people with multi-morbidity in Europe using Multi-Criteria Decision Analysis (MCDA). BMC Health Serv Res 2018;18:576. doi: 10.1509/jmkr.41.4.392.47020 PMID: 30041653

SELFIEプロジェクトのウェブサイト SUSTAINABLE INTEGRATED CARE MODELS FOR MULTI-MORBIDITY DELIVERY, FINACING AND PERFOMANCE (SELFIE)

Thokala P, Devlin N, Marsh K, Baltussen R, Boysen M, Kalo Z, Longrenn T, Mussen F, Peacock S, Watkins J, Ijzerman M: Multiple Criteria Decision Analysis for Health Care Decision Making-An Introduction: Report 1 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:1-13. PMID: 26797229

Marsh K, IJzerman M, Thokala P, Baltussen R, Boysen M, Kalo Z, Lonngren T, Mussen F, Peacock S, Watkins J, Devlin N, ISPOR Task Force: Multiple Criteria Decision Analysis for Health Care Decision Making-Emerging Good Practices: Report 2 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:125-37. PMID: 27021745

Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Wen S, Zhang L, Yang B: Two approaches to incorporate clinical data uncertainty into multiple criteria decision analysis for benefit-risk assessment of medicinal products. Value Health 2014;17:619-28. PMID: 25128056

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Schünemann HJ, Neumann I, Hultcrantz M, Brignardello-Petersen R, Zeng L, Murad MH, Izcovich A, Morgano GP, Baldeh T, Santesso N, Cuello CG, Mbuagbaw L, Guyatt G, Wiercioch W, Piggott T, De Beer H, Vinceti M, Mathioudakis AG, Mayer MG, Mustafa R, Filippini T, Iorio A, Nieuwlaat R, Marcucci M, Coello PA, Bonovas S, Piovani D, Tomlinson G, Akl EA, GRADE Working Group: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184