効果推定値の標準化と正規化

複数のアウトカムに対する介入の効果を対照と比較して、集約し、正味の益 net benefitを計算するには、効果推定値の尺度(スケール)をすべてのアウトカムに対して同じにする必要があります。治癒・非治癒のような二値変数 binary/dichotomous variableの場合は、前回の投稿で解説したように、リスク差を用いれば共通の尺度になり、絶対効果を表し、直線関係が維持されます。しかし、連続変数アウトカムも取り扱う場合は、何らかの方法で変換する必要があります。

また、連続変数アウトカムだけを扱う場合も、複数のアウトカムがあれば、例えば、血清アルブミン値とHbA1cの様に単位が異なる、つまり、尺度が異なる場合、何らかの方法で変換し、共通の尺度にする必要があります。

以上のような変換をスコア化と呼びます。

多疾患を持つ高齢者に対する最善のケアを、いくつかの国、地域別に決めるEUのSELFIEプロジェクトでは、多基準決断分析 Multi-Criteria Decision Analysis (MCDA)により、17の異なる統合ケアプログラムと通常ケアプログラムの総バリュースコアを比較しています。以前そのようなEUのプロジェクトがあるということを紹介しました。アウトカムは、連続変数アウトカムのみで、費用も含まれています。各ケアプログラムの効果の大きさ(パフォーマンス)の尺度を合わせるため、各アウトカムに対する効果推定値に対して、標準化 Standardizationとスウィングウェイティング Swing-weightingという方法を用いて、スコア化を行って、重みづけ加算モデルで総バリュースコアを計算しています。なお、2群間の総バリュースコアの差はいわゆる正味の益に相当します。

標準化 Standardizationは、そのアウトカムに対する、介入群の効果推定値と対照群の効果推定値、すなわち絶対リスクから計算しますが、標準正規分布のZ値を求める計算と同じです。図の②に示す、分母は不偏標準偏差の計算に相当します。標準化によって、効果推定値が正の値だけであれば、0~1の範囲の値のスコアに変換されます。負の値も含まれる場合は、-1~+1の範囲の値に変換されます。

図 正規化 Normalizationと標準化 Standardization

Swing-weightingは正規化 Nomalizationのひとつに相当します。図の①に示すように、あり得る最悪の推定値Wとあり得る最善の推定値Bを設定し、[(E – W)/(B – W)]×100でスコアに変換します。一般に正規化という場合、あり得る最悪の値に対して、最小値、あり得る最善の値に対して、最大値という呼び方をしています。100倍する前の値は、もし効果推定値が正の値だけであれば、0~1の範囲になります。負の値も含める場合は、-1~+1の範囲の値に変換されます。その点では、標準化と同じ範囲の値が得られます。

正味の益を求めるには、スコアに対し、各アウトカムの重要度を掛け算し、総和を計算します。SELFIEプロジェクトでは、スウィングウェイティング Swing-weightingと離散選択実験 Discrete Choice Experiment (DCE)二つの方法が用いられています。

・スウィングウェイティング Swing-weightingでは、最も重要なアウトカムを選択する際に、最悪の効果推定値‐最善の効果推定値の、振れ幅swingが最大のアウトカムを見つけ、そのアウトカム自体の重要度と合わせて、最重要としていいかを考えます。他により重要と思われるアウトカムがある場合、swingよりもそちらを優先して、そのアウトカムを最重要と決めます。そして、最重要のアウトカムを100とし、それ以外のアウトカムの相対的重要性をswingとアウトカム自体の重要性と両方を考慮して、重要度の値を設定していきます。

・離散選択実験 Discrete Choice Experiment (DCE)では、それぞれのアウトカムに対する対照と介入、すなわち2つの介入の効果について、仮想の値を設定し、さまざまな組み合わせを用意しておき、これらの組み合わせのペアを比較しながら、望ましいと思う方を選択させます。多数の被検者からの結果を集計し、回帰分析を適用して、アウトカムの重要度を決めます。

効果推定値には、不確実性が伴っていますが、95%信頼区間が分かっていれば、それらから正味の益の95%信頼区間を計算することができます。確率論的感度分析 Probabilistic Sensitivity Analysis (PSA)がそれに相当します。

正味の益の推定は、GRADEアプローチの完全文脈化Fully contextualized appraochによるエビデンス総体のエビデンスの確実性の評価にも関係があるので、何らかの方法を適用して計算する必要があるのですが、二値変数アウトカムと連続変数アウトカムの両方が含まれる場合には、Swing-weightingのような方法が必要になります。Swing-weightingについては、以前の投稿も参照してください。

文献:
Rutten-van Molken M, Leijten F, Hoedemakers M, Tsiachristas A, Verbeek N, Karimi M, Bal R, de Bont A, Islam K, Askildsen JE, Czypionka T, Kraus M, Huic M, Pitter JG, Vogt V, Stokes J, Baltaxe E, SELFIE consortium: Strengthening the evidence-base of integrated care for people with multi-morbidity in Europe using Multi-Criteria Decision Analysis (MCDA). BMC Health Serv Res 2018;18:576. doi: 10.1509/jmkr.41.4.392.47020 PMID: 30041653

SELFIEプロジェクトのウェブサイト SUSTAINABLE INTEGRATED CARE MODELS FOR MULTI-MORBIDITY DELIVERY, FINACING AND PERFOMANCE (SELFIE)

Thokala P, Devlin N, Marsh K, Baltussen R, Boysen M, Kalo Z, Longrenn T, Mussen F, Peacock S, Watkins J, Ijzerman M: Multiple Criteria Decision Analysis for Health Care Decision Making-An Introduction: Report 1 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:1-13. PMID: 26797229

Marsh K, IJzerman M, Thokala P, Baltussen R, Boysen M, Kalo Z, Lonngren T, Mussen F, Peacock S, Watkins J, Devlin N, ISPOR Task Force: Multiple Criteria Decision Analysis for Health Care Decision Making-Emerging Good Practices: Report 2 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:125-37. PMID: 27021745

Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Wen S, Zhang L, Yang B: Two approaches to incorporate clinical data uncertainty into multiple criteria decision analysis for benefit-risk assessment of medicinal products. Value Health 2014;17:619-28. PMID: 25128056

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Schünemann HJ, Neumann I, Hultcrantz M, Brignardello-Petersen R, Zeng L, Murad MH, Izcovich A, Morgano GP, Baldeh T, Santesso N, Cuello CG, Mbuagbaw L, Guyatt G, Wiercioch W, Piggott T, De Beer H, Vinceti M, Mathioudakis AG, Mayer MG, Mustafa R, Filippini T, Iorio A, Nieuwlaat R, Marcucci M, Coello PA, Bonovas S, Piovani D, Tomlinson G, Akl EA, GRADE Working Group: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

絶対リスク・絶対効果・正味の益

介入の益と害を定量的に評価するためには、絶対効果を知る必要があります。比較する2群の絶対リスクの差が絶対効果です。米AHRQ Agency for Healthcare Research and Quality医療研究・品質調査機構 のShared Decision Making (SMD)共有意思決定に関する、 SHAREアプローチのツール5:数量リテラシーでは次のような表現が使われています。「絶対リスクはひとつのグループでの健康イベントの起きる数の推定値で、より強く個人のリスクを感じさせることができる。たとえば、”喫煙者は一生の間に2倍脳卒中を起こします”というよりも、”1000人のたばこを吸わない人では3人が一生の間に脳卒中を起こし、1000人のたばこを吸う人は6人が一生の間に脳卒中を起こします”と説明すべき。」

これを読むだけで絶対リスクが何かは分かります。つまり、ひとつの群におけるアウトカムの起きた人数の割合で、単位人数当たりの頻度人数でも表すこともできます。”ひとつのグループでの健康イベントの推定値”という表現は非常に適確だと思います。後半部分で述べられている1000分6と1000分の3の差がリスク差です。つまり、暴露群の絶対リスク - 対照群の絶対リスク = リスク差です。ランダム化比較試験で介入の効果を見る場合は、介入群の絶対リスク - 対照群の絶対リスク=リスク差です。1000人あたりの頻度人数として表したいのであれば、リスク差に1000を掛け算します。

以上は、アウトカムが二値変数 binary or dichotomous variableの場合ですが、連続変数の場合は、ひとつのグループでの平均値です。ニ値変数は治癒、非治癒のような排他的な二つの事象のどちらか片方が対象者に起きます。片方が起きる割合を1から引き算するともう片方の起きる割合になります。

さて、ピクトグラムでは絶対リスクやリスク差がどのように表現されるか見てみましょう。

図1.ピクトグラム。2つのアウトカムが測定されたランダム化比較試験の結果。

架空の臨床試験ですが、ランダム化比較試験で2つのアウトカムが測定されたとします。アウトカム1は有害事象が測定されましたが、介入によるその減少が推定されており、益のアウトカムとして設定されました。アウトカム2は有害事象が測定され、介入によりその増加が推定されており、害のアウトカムとして設定されました。

試験の結果を1000人単位のピクトグラムで表すとこのスライドのようになります。 ピクトグラムでは対照群と介入群のそれぞれのアウトカムに対する絶対リスクを表すことができます。このピクトグラムは1行25人で、40行、計1000人単位で一つの群を表しています。

左の2列が対照群、右の2列が介入群で、それぞれ左側は益を得られた人数(Benetif Outcomes)を青、右側は害が起きた人数(Harm Outcomes)を赤で表しています。それぞれ塗りつぶされているアイコンの数が1000人あたりの、対応する人数を表しています。

アウトカム1の場合は、益のアウトカムとして、有害事象が測定されているので、その事象が起きなかった人数を表しています。測定された有害事象であるアウトカム1が起きた人数は対照群で500人、介入群で100人で、有害事象が減少しましたが、それぞれ1000から引き算した人数をプロットしてあります。アウトカム2の場合は、有害事象が測定されているので、そのままその事象が起きた人数を表しています。

もし、2つのアウトカムの重要度が同じであれば、対照群でBenefit Outcomesの人数から、Harm Outcomesの人数を引き算すると対照群の正味の益Dcが1000人あたりの人数として得られます。この例では、Dc=500-50 = 450となります。介入群では、同様に正味の益Di = 900-100 = 800となります。介入群の正味の益から対照群の正味の益を引き算すると、この介入によって得られる正味の益になります。すなわち、800 – 450 =350が、アウトカムの重要度を同じとみなした場合の、1000人あたりでの正味の益を表します。しかし、2つのアウトカムの重要度が同じという場合は稀でしょう。

アウトカム1の重要度を100とし、アウトカム2の重要度を20とした場合は、対照群の重要度で調整された差aDc=500 – 50×20/100 = 490、介入群の重要度で調整された差aDi=900-100×20/100 = 880となり、介入により得られる正味の益は880-490 =390となります。すなわちアウトカム1の価値に合わせた場合、1000人あたり390人がそれだけの価値のアウトカムが起きることを示します。ピクトグラムではHarm Outcomesのシェードをつけたアイコンが重要度で重みづけした頻度人数を表しています。Benefit Outcomesはアウトカム1に対応しており、測定されたアウトカム1が起きなかった、1000人あたりの人数を表しており、重要度は100にしたので、全数がシェードがついたアイコンになります。

アウトカム2はアウトカム1の5分の1の重要度なので、アウトカム1のスケールに合わせた場合、50人分を10人分、100人分を20人分とみなすことになります。これら重要度で調整された人数が赤のシェードを付けたアイコンの数になります。

リスク差から計算しても同じ結果が得られます。リスク差を計算する時は、介入群の絶対リスク-対照群の絶対リスクとして計算します。リスク差を計算すると、益のアウトカムであるアウトカム1に対して、測定された有害事象のアウトカムでは、絶対リスク 0.1-0.5 = -0.4ですが、有害事象なのでプラスマイナスを逆にし、RD1 = 0.4となります。RDはRisk Differenceです。害のアウトカムであるアウトカム2に対しては、RD2 = 0.1-0.05 = 0.05となります。アウトカムの重要度で調節しないと、正味の益=0.4-0.05=0.35となりますが、アウトカムの重要度で調整すると、正味の益=1×0.4-0.2×0.05=0.39となります。これらを1000人あたりに換算すると、390人となります。

おなじランダム化比較試験の結果をリスク差をプロットした横棒グラフにしてみます。

図2.横棒グラフによるリスク差の表示。

絶対効果 = 介入群の絶対リスク - 対照群の絶対リスク、すなわちリスク差 で計算し、介入群が優位のアウトカムは右向きの横棒、対照群が優位のアウトカムは左向きの横棒で表すと、この図のようになります。

有益事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はプラスの値になるので、そのまま右向きの横棒として描画します。有害事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はマイナスの値になるので、正負を逆にして右向きの横棒として描画します。X軸の値は0.4、1000人あたりの頻度人数400です。

有害事象がアウトカムとして測定された場合は、対照群が優位の場合、絶対効果はプラスの値になるので、左向きの横棒として描画し、左側がプラスのスケールにします。X軸の値は0.05、1000人あたりの頻度人数50です。

下段のグラフの例は、益のアウトカムの重要度を100、それに対して相対的に、害のアウトカムの重要度を20とした場合の、棒グラフです。イベント数=頻度人数を益のアウトカムの価値に合わせた人数にするため、X軸の値は、それぞれ0.4と0.01、1000人あたりの頻度人数400と10です。

いずれのグラフを見ても、介入によりアウトカム1に相当する益を受けられる人が、390人増えることが分かります。

また、このようなグラフを作成したり、グラフを解釈するには、アウトカムが有害事象なのか有益事象なのか、リスク差がいずれの群を基準にして計算し、値がプラスなのかマイナスなのかに注意が必要です。

今回取り上げた例は、益のアウトカムが1つ、害のアウトカムが1つのシンプルな例ですが、アウトカムの数がもっと多い場合、そして、アウトカムによって、優位となる介入が異なる場合は、複雑な判断が求められ、直感では処理しきれなくなるかもしれません。その時は、Multi-Criteria Decision Analysis (MCDA)のようなQuantitative Benefit-Risk AnalysisあるいはQuantitative Benefit-Harm Analysisが有用と考えられています。

アウトカムの重要度 importance of outcome は意思決定者がそのアウトカムに置く価値の大きさです。Priorities and preferences, Values and preferences, Values, Patient preferencesなどとも呼ばれています。臨床試験の際にこれらの情報を記録することも検討されています。

Valuesですから、個人個人の価値観により異なるのが普通です。その測定法として、Simple direct weighting, Swing weighting, Analytic hierarchy process, Discrete-choice experimentsなど様々な方法(Ho M 2016)が報告されています。

文献(一部のみ):
Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Brett Hauber A, Fairchild AO, Reed Johnson F: Quantifying benefit-risk preferences for medical interventions: an overview of a growing empirical literature. Appl Health Econ Health Policy 2013;11:319-29. doi: 10.1007/s40258-013-0028-y PMID: 23637054

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. doi: 10.1016/j.jval.2016.02.019 PMID: 27712701

Janssens R, Barbier L, Muller M, Cleemput I, Stoeckert I, Whichello C, Levitan B, Hammad TA, Girvalaki C, Ventura JJ, Bywall KS, Pinto CA, Schoefs E, Katz EG, Kihlbom U, Huys I: How can patient preferences be used and communicated in the regulatory evaluation of medicinal products? Findings and recommendations from IMI PREFER and call to action. Front Pharmacol 2023;14:1192770. doi: 10.3389/fphar.2019.01009 PMID: 37663265

Cochrane Risk of Bias Tool ver.2.0と評価用ウェブツール

ランダム化比較試験のバイアスリスクの評価ツールとしてCochrane Risk of Bias Tool ver.2.0が2019年8月に最終版が完成し、広く使われるようになってきました (Current versionへの Link)。評価ドメインが5つに限定され、概念は同じですが、名称が解説的なものに変わりました。シグナリングクエスチョンに答えてゆくことで、アルゴリズムに従って、評価がLow, Some concerns, Highのいずれかに決まる仕組みになっています。(Version 1.1ではLow, Unclear, High, でした。)アルゴリズムによる自動判定のツールも含んだExcel macroも公開されています。なお、アルゴリズムによる判定と評価者の判定が違う場合は、評価者の判定を優先します。また、クラスターランダム化比較試験、クロスオーバー試験用のツールは別になっています。

シグナリングクエスチョンに答えていけば、判定ができるようになっていますが、アルゴリズムのどこに合致するかを見ないといけませんし、初心者にはシグナリングクエスチョンそのものの意味が分からない場合もあると思います。従来の方法と比べると、判定の手順はかなり労力を要するものになっていると思います。特にアルゴリズムは記憶できる範囲を超える量なので、RoB 2ガイダンスドキュメントを参照しながら判定する必要があり、時間もかかります。

その様な作業を容易にするために、シグナリングクエスチョンの行をクリックすると表示される解説を見ながらシグナリングクエスチョンに答えていくことで、アルゴリズムに従い、自動的に判定するWeb toolを作成しました。(プログラミングはJavaScriptを用いています)。Cochraneのウェブサイトの紹介、RoB 2のガイダンスドキュメントの紹介、RoB 2ウェブツールの紹介、評価シートとの連携、評価シートからR+metafor, forestplotによるメタアナリシスの実行まで解説した動画(11分13秒)を作成しました。

メタアナリシスをすべきかどうかそれが問題だ

AHRQ Agency for Healthcare Research and Qualityから2018年にQuantitative Synthesis-An Updateというレポートが出されています。(2020年に訂正あり)。執筆者は12名、ピアレビューは15名が担当しています。

メタアナリシスをしようと思った時に、各研究間に異質性がある場合、それらを単にプールして統合値を求めることに当然疑問を抱くと思います。メタアナリシスをすべきかどうかそれが問題だという時に役に立つ情報です。

5章から構成され、以下のテーマが取り上げられています。1. 試験結合の決定、2. エフェクトサイズデータの使用の最適化、3. 研究結合のための統計学的モデルの選択、4. 統計学的異質性の定量化・検定・探索、5. ネットワークメタアナリシス。

今回は、第1章 試験結合の決定の概要を紹介します。メタアナリシスをすべきか決めるためのフローチャートが提示されているので、スライドと解説としてまとめてみました。最後にQuizが2つあります。Link to ”Pooling decision tree”

メタアナリシスをしようと思った時に出てくるさまざまな疑問に答えられる有用な情報になると思います。これに沿って考えることは役に立つと思います。

もう一つ重要なポイントは、この報告書をWorking Groupがどのように作成したかについてです。かれらは、「14カ月にわたって、テレカンファレンスで、①プロジェクトの方向性、スコープ、②仕事の分担・協働、③データの収集・分析について議論し、④ドラフトについて議論し編集を行った。最初の会議では、ドラフトのアウトライン、タイムラインについて議論し、合意形成の方法について同意を得た。」

「大グループは2週おきにテレカンファレンス、章別に小グループに分かれ、それとは別に作業の調整をし、文献レビューの結果について議論し、それぞれの章のドラフトを書いた。後で、全章をひとつにまとめ、2週おきに議論した。」

「文献検索専門家が章ごとの文献検索を行った。それらを全章に渡ってまとめた。16,000の文献を含む、AHRQ SRC Methods Libraryを用いた。追加の文献は、最近のSR、レビュー、エディトリアル、エキスパートのレビューから探した。」

要点は:
・元になる文献のレビューの段階から、チームで議論をしている。
・合意形成の手順についてあらかじめ議論し、それを共有した。
・2週おきの議論を繰り返した。

これほどのエンゲージメントは大変だろうと思いますが、チームワークで作業をする場合これくらいする必要があるだろうと思います。このような手順であれば、論文の解釈についても議論され、参加者の理解が深まり、共有されることになるでしょう。誰か分かっていそうな人が書いた原稿を誰か別の人が査読してOKなら終了というのとは全く違うと思います。