GRADEアプローチのエビデンスの確実性評価:3種類の文脈化

GRADEアプローチにおけるアウトカムごとのエビデンス総体のエビデンスの確実性の評価方法は、システマティックレビュー(SR)、医療技術評価(HTA)と診療ガイドライン(CPG)作成では、異なります。前2者は最小文脈化アプローチMinimally contextualized appproach、または、部分的文脈化のアプローチPartially contextualized approachを用い、CPGでは完全文脈化のアプローチFully contextualized approachを用います。最小文脈化、部分的文脈化のアプローチでは効果推定値が正しいことに対する確信の程度を決めること、完全文脈化では、各アウトカムに対する介入の効果推定値が推奨を支持する適切さに対する確信の程度を決めることが目的です(表1)。

表1.エビデンス総体のエビデンスの確実性評価と文脈化の程度。


エビデンスの確実性とは:GRADEはエビデンスの確実性を、真の効果が特定の閾値の片側あるいは効果量の選択された範囲にある確実性と定義した」(Schünemann HJ 2022)、あるいは、「GRADEワーキンググループは、個々のアウトカムに対するエビデンスの確実性をレーティングするとき、真の効果が特定の範囲にある、または、ある閾値の片側にあることに、我々がどれくらい確かだと思うかを我々はレーティングしているということを明確にしている」(Hultcrantz M 2017)とされています。

文脈化の程度と他のアウトカムの関連、大・中・小の閾値の設定、正味の益の算出、アウトカムの重要度(価値)の設定、確実性のレーティングの標的の関係を表2に示します。

表2. 文脈化の程度と各アプローチの特徴。

GRADEワーキンググループ(WG)は2017年にエビデンスの確実性の概念(costruct)について論文(Hultcrantz M 2017)を発表しました。その後のWGの議論を踏まえて、2021年の論文(Zeng L 2021)では、エビデンスの確実性評価の実際的なガイダンスについて述べています。そのガイダンスでは、エビデンスの確実性の評価者は、エビデンスの確実性の概念の何を評価するのかを明確にする必要があると述べており、それを確実性のレーティングの標的(the target of their certainty rating)と呼んでいます。

そして、確実性のレーティングの標的は、エビデンスの確実性評価の文脈化の程度によって異なり、最小文脈化のアプローチでは無効果あるいは効果ありの確実性、または、効果推定値が無効果を含むある範囲にある確実性が標的になります。部分的文脈化のアプローチでは閾値の片側にある確実性あるいは信頼区間が大・中・小の臨床的意味のある閾値と交差する数が標的になります。完全文脈化ではさらに、正味の益を明確にしたうえで、信頼区間の上限値、下限値でそれが反転するかどうかを見る(Hultcrantz M 2017)、あるいは、望ましくない効果の上限値の総和への影響を見る(Schünemann HJ 2022)ことになります。

完全文脈化のアプローチを用いる場合、前作業として部分的文脈化のアプローチによる各アウトカムに対する効果推定値の確実性の評価を行うことが勧められています。

大・中・小の閾値を設定する際には、絶対効果を用い、アウトカムの重要度を反映する必要があります。閾値はリスク差×アウトカムの重要度(効用値)をスケールとして用います。

図1.閾値の設定

効果推定値の95%信頼区間がこれら閾値といくつ交差するかによって、エビデンスの確実性をレートダウンします。1つの閾値と交差する場合は、1レベルレートダウン;2つの閾値と交差する場合は、2レベルレートダウン;3つの閾値と交差する場合は、3レベルレートダウンが原則です。

図2.閾値と信頼区間の関係とレートダウン。

効果推定値が大の閾値を超えるようなありそうもない大きな効果を示している場合、あるいは、わずかまたは小さな効果の場合に、Review Information Size(RIS)レビュー情報量を計算する必要があります。大・中・小の閾値に対する必要なRIS、すなわちその大きさの効果を証明に必要なサンプルサイズを計算し、その結果で、実際のサンプルサイズが•大きな効果の閾値より少ない ⇒ 3レベルレートダウン;•中等度の効果の閾値より少ない ⇒ 2レベルレートダウン;•小さな効果の閾値より少ない ⇒ 1レベルレートダウンすることが提案されています。ただし、効果推定値の95%信頼区間の大・中・小の閾値との交差と合わせて慎重に判断する必要があります。

OISは臨床的に意味のある効果推定値を証明するのに必要なサンプルサイズ。エビデンスの確実性の評価で、部分的文脈化あるいは完全文脈化アプローチを用いる場合は、大・中・小の閾値を設定する必要があり、それぞれに対する必要なサンプルサイズを計算するので、RISという用語を用いる。OIS: Optimal Information Size最適情報量; RIS: Review Information Sizeレビュー情報量

閾値の設定は困難な課題ですが、次のような情報を根拠とすることが提案されています:
•効用値と絶対効果から閾値を設定している研究を参照する。
•効用値に関する研究を参照する。
•閾値が用いられた診療ガイドラインを参照する。
•疾患専門家や意思決定に関与する利害関係者が何らかの情報(経験、文献情報)に基づいて、効用値を考えながら閾値を設定する。

また閾値を設定は、まずアウトカムの重要度を設定し、その後に行うべきとされています。以下の点に留意する必要があります:
•アウトカムの重要度をエビデンス評価の前に決めておく。
•アウトカムの重要度を決めてから閾値を設定する。
•アウトカムの重要度に関する新知見が得られたら閾値をアップデートする。
•アウトカムの重要度は少なくとも疾患に特異的であり、相対的な値なので、同じアウトカムがどのような疾患でも同じ価値を持つわけではない。また、介入により取り扱うべきアウトカムが異なることもあるので、同じ疾患でも、他のアウトカムの構成によって同じアウトカムでも異なる値を設定することがありうる。0~100(あるいは0~1.0)の値を設定する。

また連続変数アウトカムの場合の閾値の設定に関しては以下の提案がされています:
•大・中・小の閾値に関する経験的推定値がある場合、それを用いる。例:Chronic Respiratory Questionnaire 7ポイントスケールの場合、0.5, 1.0, 1.5; Visual Analogue Scaleの場合6, 10, 14
•Minimally Important Difference (MID)の推定値が得られる場合、それを小さい効果の閾値として用いる。
•標準化平均値差(SMD)を用いて、SMD 0.2, 0.5, 0.8に閾値を設定する。
•何らかの情報に基づく専門家の推定値。

#################################

Hultcrantz M 2017で述べられていた完全文脈化のアプローチのステップは以下の様になります:

1.絶対効果の大きさとアウトカムの重要性の積の総和として正味の益を計算する(Alper BS 2019)。
2.各アウトカムに対する絶対効果の上限値と下限値で正味の益が逆転するかを見る。(逆転の閾値は0または評価者が設定した値)。
3.逆転する場合は、そのアウトカムに対する効果の不精確性をレートダウンし、(他のエビデンスの確実性評価ドメインと合わせて)エビデンス総体のエビデンスの確実性をレートダウンする。

なお、連続変数アウトカムの場合はそのままでは正味の益の計算に含めることはできません。

#################################

Schünemann HJ 2022の論文で述べられている完全文脈化のアプローチのステップは以下の様になります:

0.  部分的文脈化アプローチで各アウトカムに対する効果推定値の不精確性の評価を行う。
1.益のアウトカムに対する効果推定値の95%信頼区間下限値に基づいてありうる最小の望ましい絶対効果量を特定する。
2.害のアウトカムに対する効果推定値の95%信頼区間上限値に基づいてありうる最大の望ましくない絶対効果量を特定する。
3.最小の望ましい効果を集約(aggregate)し、それに基づいて介入を推奨するのに許容しうる最大のありうる望ましくない効果の総和(overall)を決める(必要に応じて費用なども考慮する)。個々の望ましくないアウトカムに対する効果のありうる最大値に基づいて不精確性のレーティングを変更する必要があるかを決めるのにこの総和の閾値を考慮する。複数の望ましくない効果がある場合、これを各アウトカムについて個別に、あるいは集積した上で、行わなければならないことに留意する。
4.望ましくない効果の信頼区間が、許容しうる最大のありうる望ましくない効果の閾値と重なるかどうかを判定する。もし「はい」なら、完全文脈化アプローチの精確性のレーティングは変更されない。益と害のバランスが確実でないかもしれない、すなわち、明確な正味の望ましい健康効果がないため、ガイドライン委員会は通常、条件付推奨とする。
5.閾値が交差しない場合、不精確性に基づく不確実性は決定に影響を与えない可能性があり、正味の望ましい効果があるため、望ましい効果と望ましくない効果に対する不精確性の確実性を下げることは、推奨や決断のために必要ないであろう(これはまれであろう)。そして、総体のエビデンスの確実性が全体として中または高い場合、ガイドライン委員会は多くの場合、強い推奨とする。エビデンス全体の確実性が非常に低いか低い場合、たとえ正味で望ましい効果があったとしても、ガイドライン・パネルは通常、条件付き推奨とする。
注)例を挙げていないが、仮に、部分的に文脈化されたアプローチを用いて、どのアウトカムも不精確性で格下げが行われなかったとしても、すべての望ましいアウトカムまたはすべての望ましくないアウトカムの不確実性の累積が、望ましいアウトカムまたは望ましくないアウトカムの累積効果を不精確にする可能性がある。すべての望ましい結果または望ましくない結果を組み合わせた後の累積不確実性が非常に大きく、信頼区間が閾値を超えるような場合には、1つまたは複数の主要なアウトカムの不精確性を理由とした格下げが正当化される可能性がある。

なお、同論文には部分的文脈化のアプローチのステップも記述されていますので、必要に応じて、参照してください。

#####################################

完全文脈化のアプローチは複雑で、実行も容易とは思えません。各アウトカムに対する効果推定値の95%信頼区間の幅を評価する際に、大・中・小の区切りを閾値として設定するだけの様にも見えますし、大・中・小の閾値の設定はアウトカムの重要度の設定と同じように、個人によって差が出てくるように思えます。また、もともと絶対効果が小さい、あるいは、重要度が低いアウトカムに対する効果推定値の不確実性は、意思決定あるいは推奨に影響しない可能性が高く、エビデンスの確実性の厳密な評価をする意義が低くなると思います。

文献:
Hultcrantz M, et al: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

Alper BS, et al: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. doi: 10.1007/s11882-011-0185-8 PMID: 31167868

Zeng L, et al: GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. J Clin Epidemiol 2021;137:163-175. doi: 10.1016/j.jclinepi.2021.03.026 PMID: 33857619

Schünemann HJ, et al: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

連続変数を二値化したスコアにする:閾値による割合スコア

連続変数を標準化することで、0~1の範囲の値に変換し、異なるアウトカムに関する効果推定値を互いに比較できるようにする方法について解説しました。もし、正規分布に従うことを仮定できるのであれば、閾値を設定して、曲線下の面積を比較することで、効果の大きさを表すことができるはずです。対照に対する介入の正味の益を計算したい場合、二値変数アウトカムと連続変数アウトカムの両方ある場合、連続変数を二値化したスコアにすることで、望ましい効果が得られた、あるいは、望ましくない効果が起きた対象者の割合を表すことができ、二値変数アウトカムと同じように扱えるはずです。そのアウトカムの重要度の設定もやりやすくなるはずです。


例えば、対照群と介入群の平均値と標準偏差から、望ましい値の下限値を閾値として設定すると、介入により、望ましい値の範囲に含まれる対象者の割合の変動を計算することができます。つまり、対照群と介入群の、絶対リスクの値と標準偏差の値が、分かれば、例えば、Rでの関数はpnorm(閾値,平均値,標準偏差)、あるいは、Excelでの関数はNORM.DIS(閾値,平均,標準偏差,TRUE)を用いて計算することができます。

Rのスクリプトであれば、以下の様に記述できます。

S=(1-pnorm(Th,Eik,SDik))-(1-pnorm(Th,Ejk,SDjk))=pnorm(Th,Ejk,SDjk)-pnorm(Th,Eik,SDik)

Excelの式であれば、以下の様になります。

=(1-NORM.DIST(Th,Eik,SDik,TRUE))-(1-NORM.DIST(Th,Ejk,SDjk,TRUE))

すなわち、

=NORM.DIST(Th,Ejk,SDjk,TRUE)-NORM.DIST(Th,Eik,SDik,TRUE)

閾値による割合(PD)スコアは、もし対象と介入の平均値が同じで、標準偏差も同じであれば、0になります。一方、介入の平均値が正常の平均値になれば、ほぼ1になります。あり得る最小値は0、あり得る最大値は1です。*PD: Proportion Difference

スライドの例は、血清アルブミン値のように、値が大きい方が望ましい連続変数アウトカムです。

例えば、HbA1cの様に、値が小さい方が望ましい連続変数アウトカムの場合は、閾値は正常の上限値に設定するか、臨床的に意義のある値に設定し、以下の式で割合(PD)スコアが計算できます。スライドに示す、値が大きい方が望ましい場合の計算で得られた結果の正負を逆にするのと同じ値になります。

Rのスクリプト:
S=pnorm(Th,Eik,SDik)-pnorm(Th,Ejk,SDjk)

Excelの場合:
=NORM.DIST(Th,Eik,SDik,TRUE)-NORM.DIST(Th,Ejk,SDjk,TRUE)

閾値Thは臨床検査の様に基準値が設定されている場合は、それを用いることが考えられます。また、介入により基準値の範囲にまで、改善することではなく、臨床的に意味のある値を、閾値に設定することも考えられます。

閾値を設定して、望ましい値の範囲に含まれる対象者の割合が介入によりどれだけ増加する、あるいは、減少するかをスコアとして示すことで、二値変数アウトカムの場合のリスク差と同じように取り扱うことができます。アウトカムの重要度の設定も相対的な比較がより容易になると考えられます。

標準化で得られる値は、sjk=0.687, sik=0.726, Sij=0.0393と全く異なります。


連続変数に対して閾値による割合(PD)スコアおよび二値変数はイベント率から正味の益を計算するためのExcelの計算表:あくまで参考資料で、完成版ではありません。。いろいろ値を入力して試すのは構いません。

URL: https://info.zanet.biz/lec/srsz/mcda_score_weight/abs_risk_prop.xlsx

(右クリックしてダウンロードして用いてください)

効果推定値の標準化と正規化

複数のアウトカムに対する介入の効果を対照と比較して、集約し、正味の益 net benefitを計算するには、効果推定値の尺度(スケール)をすべてのアウトカムに対して同じにする必要があります。治癒・非治癒のような二値変数 binary/dichotomous variableの場合は、前回の投稿で解説したように、リスク差を用いれば共通の尺度になり、絶対効果を表し、直線関係が維持されます。しかし、連続変数アウトカムも取り扱う場合は、何らかの方法で変換する必要があります。

また、連続変数アウトカムだけを扱う場合も、複数のアウトカムがあれば、例えば、血清アルブミン値とHbA1cの様に単位が異なる、つまり、尺度が異なる場合、何らかの方法で変換し、共通の尺度にする必要があります。

以上のような変換をスコア化と呼びます。

多疾患を持つ高齢者に対する最善のケアを、いくつかの国、地域別に決めるEUのSELFIEプロジェクトでは、多基準決断分析 Multi-Criteria Decision Analysis (MCDA)により、17の異なる統合ケアプログラムと通常ケアプログラムの総バリュースコアを比較しています。以前そのようなEUのプロジェクトがあるということを紹介しました。アウトカムは、連続変数アウトカムのみで、費用も含まれています。各ケアプログラムの効果の大きさ(パフォーマンス)の尺度を合わせるため、各アウトカムに対する効果推定値に対して、標準化 Standardizationとスウィングウェイティング Swing-weightingという方法を用いて、スコア化を行って、重みづけ加算モデルで総バリュースコアを計算しています。なお、2群間の総バリュースコアの差はいわゆる正味の益に相当します。

標準化 Standardizationは、そのアウトカムに対する、介入群の効果推定値と対照群の効果推定値、すなわち絶対リスクから計算しますが、標準正規分布のZ値を求める計算と同じです。図の②に示す、分母は不偏標準偏差の計算に相当します。標準化によって、効果推定値が正の値だけであれば、0~1の範囲の値のスコアに変換されます。負の値も含まれる場合は、-1~+1の範囲の値に変換されます。

図 正規化 Normalizationと標準化 Standardization

Swing-weightingは正規化 Nomalizationのひとつに相当します。図の①に示すように、あり得る最悪の推定値Wとあり得る最善の推定値Bを設定し、[(E – W)/(B – W)]×100でスコアに変換します。一般に正規化という場合、あり得る最悪の値に対して、最小値、あり得る最善の値に対して、最大値という呼び方をしています。100倍する前の値は、もし効果推定値が正の値だけであれば、0~1の範囲になります。負の値も含める場合は、-1~+1の範囲の値に変換されます。その点では、標準化と同じ範囲の値が得られます。

正味の益を求めるには、スコアに対し、各アウトカムの重要度を掛け算し、総和を計算します。SELFIEプロジェクトでは、スウィングウェイティング Swing-weightingと離散選択実験 Discrete Choice Experiment (DCE)二つの方法が用いられています。

・スウィングウェイティング Swing-weightingでは、最も重要なアウトカムを選択する際に、最悪の効果推定値‐最善の効果推定値の、振れ幅swingが最大のアウトカムを見つけ、そのアウトカム自体の重要度と合わせて、最重要としていいかを考えます。他により重要と思われるアウトカムがある場合、swingよりもそちらを優先して、そのアウトカムを最重要と決めます。そして、最重要のアウトカムを100とし、それ以外のアウトカムの相対的重要性をswingとアウトカム自体の重要性と両方を考慮して、重要度の値を設定していきます。

・離散選択実験 Discrete Choice Experiment (DCE)では、それぞれのアウトカムに対する対照と介入、すなわち2つの介入の効果について、仮想の値を設定し、さまざまな組み合わせを用意しておき、これらの組み合わせのペアを比較しながら、望ましいと思う方を選択させます。多数の被検者からの結果を集計し、回帰分析を適用して、アウトカムの重要度を決めます。

効果推定値には、不確実性が伴っていますが、95%信頼区間が分かっていれば、それらから正味の益の95%信頼区間を計算することができます。確率論的感度分析 Probabilistic Sensitivity Analysis (PSA)がそれに相当します。

正味の益の推定は、GRADEアプローチの完全文脈化Fully contextualized appraochによるエビデンス総体のエビデンスの確実性の評価にも関係があるので、何らかの方法を適用して計算する必要があるのですが、二値変数アウトカムと連続変数アウトカムの両方が含まれる場合には、Swing-weightingのような方法が必要になります。Swing-weightingについては、以前の投稿も参照してください。

文献:
Rutten-van Molken M, Leijten F, Hoedemakers M, Tsiachristas A, Verbeek N, Karimi M, Bal R, de Bont A, Islam K, Askildsen JE, Czypionka T, Kraus M, Huic M, Pitter JG, Vogt V, Stokes J, Baltaxe E, SELFIE consortium: Strengthening the evidence-base of integrated care for people with multi-morbidity in Europe using Multi-Criteria Decision Analysis (MCDA). BMC Health Serv Res 2018;18:576. doi: 10.1509/jmkr.41.4.392.47020 PMID: 30041653

SELFIEプロジェクトのウェブサイト SUSTAINABLE INTEGRATED CARE MODELS FOR MULTI-MORBIDITY DELIVERY, FINACING AND PERFOMANCE (SELFIE)

Thokala P, Devlin N, Marsh K, Baltussen R, Boysen M, Kalo Z, Longrenn T, Mussen F, Peacock S, Watkins J, Ijzerman M: Multiple Criteria Decision Analysis for Health Care Decision Making-An Introduction: Report 1 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:1-13. PMID: 26797229

Marsh K, IJzerman M, Thokala P, Baltussen R, Boysen M, Kalo Z, Lonngren T, Mussen F, Peacock S, Watkins J, Devlin N, ISPOR Task Force: Multiple Criteria Decision Analysis for Health Care Decision Making-Emerging Good Practices: Report 2 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:125-37. PMID: 27021745

Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Wen S, Zhang L, Yang B: Two approaches to incorporate clinical data uncertainty into multiple criteria decision analysis for benefit-risk assessment of medicinal products. Value Health 2014;17:619-28. PMID: 25128056

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Schünemann HJ, Neumann I, Hultcrantz M, Brignardello-Petersen R, Zeng L, Murad MH, Izcovich A, Morgano GP, Baldeh T, Santesso N, Cuello CG, Mbuagbaw L, Guyatt G, Wiercioch W, Piggott T, De Beer H, Vinceti M, Mathioudakis AG, Mayer MG, Mustafa R, Filippini T, Iorio A, Nieuwlaat R, Marcucci M, Coello PA, Bonovas S, Piovani D, Tomlinson G, Akl EA, GRADE Working Group: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

絶対リスク・絶対効果・正味の益

介入の益と害を定量的に評価するためには、絶対効果を知る必要があります。比較する2群の絶対リスクの差が絶対効果です。米AHRQ Agency for Healthcare Research and Quality医療研究・品質調査機構 のShared Decision Making (SMD)共有意思決定に関する、 SHAREアプローチのツール5:数量リテラシーでは次のような表現が使われています。「絶対リスクはひとつのグループでの健康イベントの起きる数の推定値で、より強く個人のリスクを感じさせることができる。たとえば、”喫煙者は一生の間に2倍脳卒中を起こします”というよりも、”1000人のたばこを吸わない人では3人が一生の間に脳卒中を起こし、1000人のたばこを吸う人は6人が一生の間に脳卒中を起こします”と説明すべき。」

これを読むだけで絶対リスクが何かは分かります。つまり、ひとつの群におけるアウトカムの起きた人数の割合で、単位人数当たりの頻度人数でも表すこともできます。”ひとつのグループでの健康イベントの推定値”という表現は非常に適確だと思います。後半部分で述べられている1000分6と1000分の3の差がリスク差です。つまり、暴露群の絶対リスク - 対照群の絶対リスク = リスク差です。ランダム化比較試験で介入の効果を見る場合は、介入群の絶対リスク - 対照群の絶対リスク=リスク差です。1000人あたりの頻度人数として表したいのであれば、リスク差に1000を掛け算します。

以上は、アウトカムが二値変数 binary or dichotomous variableの場合ですが、連続変数の場合は、ひとつのグループでの平均値です。ニ値変数は治癒、非治癒のような排他的な二つの事象のどちらか片方が対象者に起きます。片方が起きる割合を1から引き算するともう片方の起きる割合になります。

さて、ピクトグラムでは絶対リスクやリスク差がどのように表現されるか見てみましょう。

図1.ピクトグラム。2つのアウトカムが測定されたランダム化比較試験の結果。

架空の臨床試験ですが、ランダム化比較試験で2つのアウトカムが測定されたとします。アウトカム1は有害事象が測定されましたが、介入によるその減少が推定されており、益のアウトカムとして設定されました。アウトカム2は有害事象が測定され、介入によりその増加が推定されており、害のアウトカムとして設定されました。

試験の結果を1000人単位のピクトグラムで表すとこのスライドのようになります。 ピクトグラムでは対照群と介入群のそれぞれのアウトカムに対する絶対リスクを表すことができます。このピクトグラムは1行25人で、40行、計1000人単位で一つの群を表しています。

左の2列が対照群、右の2列が介入群で、それぞれ左側は益を得られた人数(Benetif Outcomes)を青、右側は害が起きた人数(Harm Outcomes)を赤で表しています。それぞれ塗りつぶされているアイコンの数が1000人あたりの、対応する人数を表しています。

アウトカム1の場合は、益のアウトカムとして、有害事象が測定されているので、その事象が起きなかった人数を表しています。測定された有害事象であるアウトカム1が起きた人数は対照群で500人、介入群で100人で、有害事象が減少しましたが、それぞれ1000から引き算した人数をプロットしてあります。アウトカム2の場合は、有害事象が測定されているので、そのままその事象が起きた人数を表しています。

もし、2つのアウトカムの重要度が同じであれば、対照群でBenefit Outcomesの人数から、Harm Outcomesの人数を引き算すると対照群の正味の益Dcが1000人あたりの人数として得られます。この例では、Dc=500-50 = 450となります。介入群では、同様に正味の益Di = 900-100 = 800となります。介入群の正味の益から対照群の正味の益を引き算すると、この介入によって得られる正味の益になります。すなわち、800 – 450 =350が、アウトカムの重要度を同じとみなした場合の、1000人あたりでの正味の益を表します。しかし、2つのアウトカムの重要度が同じという場合は稀でしょう。

アウトカム1の重要度を100とし、アウトカム2の重要度を20とした場合は、対照群の重要度で調整された差aDc=500 – 50×20/100 = 490、介入群の重要度で調整された差aDi=900-100×20/100 = 880となり、介入により得られる正味の益は880-490 =390となります。すなわちアウトカム1の価値に合わせた場合、1000人あたり390人がそれだけの価値のアウトカムが起きることを示します。ピクトグラムではHarm Outcomesのシェードをつけたアイコンが重要度で重みづけした頻度人数を表しています。Benefit Outcomesはアウトカム1に対応しており、測定されたアウトカム1が起きなかった、1000人あたりの人数を表しており、重要度は100にしたので、全数がシェードがついたアイコンになります。

アウトカム2はアウトカム1の5分の1の重要度なので、アウトカム1のスケールに合わせた場合、50人分を10人分、100人分を20人分とみなすことになります。これら重要度で調整された人数が赤のシェードを付けたアイコンの数になります。

リスク差から計算しても同じ結果が得られます。リスク差を計算する時は、介入群の絶対リスク-対照群の絶対リスクとして計算します。リスク差を計算すると、益のアウトカムであるアウトカム1に対して、測定された有害事象のアウトカムでは、絶対リスク 0.1-0.5 = -0.4ですが、有害事象なのでプラスマイナスを逆にし、RD1 = 0.4となります。RDはRisk Differenceです。害のアウトカムであるアウトカム2に対しては、RD2 = 0.1-0.05 = 0.05となります。アウトカムの重要度で調節しないと、正味の益=0.4-0.05=0.35となりますが、アウトカムの重要度で調整すると、正味の益=1×0.4-0.2×0.05=0.39となります。これらを1000人あたりに換算すると、390人となります。

おなじランダム化比較試験の結果をリスク差をプロットした横棒グラフにしてみます。

図2.横棒グラフによるリスク差の表示。

絶対効果 = 介入群の絶対リスク - 対照群の絶対リスク、すなわちリスク差 で計算し、介入群が優位のアウトカムは右向きの横棒、対照群が優位のアウトカムは左向きの横棒で表すと、この図のようになります。

有益事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はプラスの値になるので、そのまま右向きの横棒として描画します。有害事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はマイナスの値になるので、正負を逆にして右向きの横棒として描画します。X軸の値は0.4、1000人あたりの頻度人数400です。

有害事象がアウトカムとして測定された場合は、対照群が優位の場合、絶対効果はプラスの値になるので、左向きの横棒として描画し、左側がプラスのスケールにします。X軸の値は0.05、1000人あたりの頻度人数50です。

下段のグラフの例は、益のアウトカムの重要度を100、それに対して相対的に、害のアウトカムの重要度を20とした場合の、棒グラフです。イベント数=頻度人数を益のアウトカムの価値に合わせた人数にするため、X軸の値は、それぞれ0.4と0.01、1000人あたりの頻度人数400と10です。

いずれのグラフを見ても、介入によりアウトカム1に相当する益を受けられる人が、390人増えることが分かります。

また、このようなグラフを作成したり、グラフを解釈するには、アウトカムが有害事象なのか有益事象なのか、リスク差がいずれの群を基準にして計算し、値がプラスなのかマイナスなのかに注意が必要です。

今回取り上げた例は、益のアウトカムが1つ、害のアウトカムが1つのシンプルな例ですが、アウトカムの数がもっと多い場合、そして、アウトカムによって、優位となる介入が異なる場合は、複雑な判断が求められ、直感では処理しきれなくなるかもしれません。その時は、Multi-Criteria Decision Analysis (MCDA)のようなQuantitative Benefit-Risk AnalysisあるいはQuantitative Benefit-Harm Analysisが有用と考えられています。

アウトカムの重要度 importance of outcome は意思決定者がそのアウトカムに置く価値の大きさです。Priorities and preferences, Values and preferences, Values, Patient preferencesなどとも呼ばれています。臨床試験の際にこれらの情報を記録することも検討されています。

Valuesですから、個人個人の価値観により異なるのが普通です。その測定法として、Simple direct weighting, Swing weighting, Analytic hierarchy process, Discrete-choice experimentsなど様々な方法(Ho M 2016)が報告されています。

文献(一部のみ):
Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Brett Hauber A, Fairchild AO, Reed Johnson F: Quantifying benefit-risk preferences for medical interventions: an overview of a growing empirical literature. Appl Health Econ Health Policy 2013;11:319-29. doi: 10.1007/s40258-013-0028-y PMID: 23637054

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. doi: 10.1016/j.jval.2016.02.019 PMID: 27712701

Janssens R, Barbier L, Muller M, Cleemput I, Stoeckert I, Whichello C, Levitan B, Hammad TA, Girvalaki C, Ventura JJ, Bywall KS, Pinto CA, Schoefs E, Katz EG, Kihlbom U, Huys I: How can patient preferences be used and communicated in the regulatory evaluation of medicinal products? Findings and recommendations from IMI PREFER and call to action. Front Pharmacol 2023;14:1192770. doi: 10.3389/fphar.2019.01009 PMID: 37663265