効果推定値の標準化と正規化

複数のアウトカムに対する介入の効果を対照と比較して、集約し、正味の益 net benefitを計算するには、効果推定値の尺度(スケール)をすべてのアウトカムに対して同じにする必要があります。治癒・非治癒のような二値変数 binary/dichotomous variableの場合は、前回の投稿で解説したように、リスク差を用いれば共通の尺度になり、絶対効果を表し、直線関係が維持されます。しかし、連続変数アウトカムも取り扱う場合は、何らかの方法で変換する必要があります。

また、連続変数アウトカムだけを扱う場合も、複数のアウトカムがあれば、例えば、血清アルブミン値とHbA1cの様に単位が異なる、つまり、尺度が異なる場合、何らかの方法で変換し、共通の尺度にする必要があります。

以上のような変換をスコア化と呼びます。

多疾患を持つ高齢者に対する最善のケアを、いくつかの国、地域別に決めるEUのSELFIEプロジェクトでは、多基準決断分析 Multi-Criteria Decision Analysis (MCDA)により、17の異なる統合ケアプログラムと通常ケアプログラムの総バリュースコアを比較しています。以前そのようなEUのプロジェクトがあるということを紹介しました。アウトカムは、連続変数アウトカムのみで、費用も含まれています。各ケアプログラムの効果の大きさ(パフォーマンス)の尺度を合わせるため、各アウトカムに対する効果推定値に対して、標準化 Standardizationとスウィングウェイティング Swing-weightingという方法を用いて、スコア化を行って、重みづけ加算モデルで総バリュースコアを計算しています。なお、2群間の総バリュースコアの差はいわゆる正味の益に相当します。

標準化 Standardizationは、そのアウトカムに対する、介入群の効果推定値と対照群の効果推定値、すなわち絶対リスクから計算しますが、標準正規分布のZ値を求める計算と同じです。図の②に示す、分母は不偏標準偏差の計算に相当します。標準化によって、効果推定値が正の値だけであれば、0~1の範囲の値のスコアに変換されます。負の値も含まれる場合は、-1~+1の範囲の値に変換されます。

図 正規化 Normalizationと標準化 Standardization

Swing-weightingは正規化 Nomalizationのひとつに相当します。図の①に示すように、あり得る最悪の推定値Wとあり得る最善の推定値Bを設定し、[(E – W)/(B – W)]×100でスコアに変換します。一般に正規化という場合、あり得る最悪の値に対して、最小値、あり得る最善の値に対して、最大値という呼び方をしています。100倍する前の値は、もし効果推定値が正の値だけであれば、0~1の範囲になります。負の値も含める場合は、-1~+1の範囲の値に変換されます。その点では、標準化と同じ範囲の値が得られます。

正味の益を求めるには、スコアに対し、各アウトカムの重要度を掛け算し、総和を計算します。SELFIEプロジェクトでは、スウィングウェイティング Swing-weightingと離散選択実験 Discrete Choice Experiment (DCE)二つの方法が用いられています。

・スウィングウェイティング Swing-weightingでは、最も重要なアウトカムを選択する際に、最悪の効果推定値‐最善の効果推定値の、振れ幅swingが最大のアウトカムを見つけ、そのアウトカム自体の重要度と合わせて、最重要としていいかを考えます。他により重要と思われるアウトカムがある場合、swingよりもそちらを優先して、そのアウトカムを最重要と決めます。そして、最重要のアウトカムを100とし、それ以外のアウトカムの相対的重要性をswingとアウトカム自体の重要性と両方を考慮して、重要度の値を設定していきます。

・離散選択実験 Discrete Choice Experiment (DCE)では、それぞれのアウトカムに対する対照と介入、すなわち2つの介入の効果について、仮想の値を設定し、さまざまな組み合わせを用意しておき、これらの組み合わせのペアを比較しながら、望ましいと思う方を選択させます。多数の被検者からの結果を集計し、回帰分析を適用して、アウトカムの重要度を決めます。

効果推定値には、不確実性が伴っていますが、95%信頼区間が分かっていれば、それらから正味の益の95%信頼区間を計算することができます。確率論的感度分析 Probabilistic Sensitivity Analysis (PSA)がそれに相当します。

正味の益の推定は、GRADEアプローチの完全文脈化Fully contextualized appraochによるエビデンス総体のエビデンスの確実性の評価にも関係があるので、何らかの方法を適用して計算する必要があるのですが、二値変数アウトカムと連続変数アウトカムの両方が含まれる場合には、Swing-weightingのような方法が必要になります。Swing-weightingについては、以前の投稿も参照してください。

文献:
Rutten-van Molken M, Leijten F, Hoedemakers M, Tsiachristas A, Verbeek N, Karimi M, Bal R, de Bont A, Islam K, Askildsen JE, Czypionka T, Kraus M, Huic M, Pitter JG, Vogt V, Stokes J, Baltaxe E, SELFIE consortium: Strengthening the evidence-base of integrated care for people with multi-morbidity in Europe using Multi-Criteria Decision Analysis (MCDA). BMC Health Serv Res 2018;18:576. doi: 10.1509/jmkr.41.4.392.47020 PMID: 30041653

SELFIEプロジェクトのウェブサイト SUSTAINABLE INTEGRATED CARE MODELS FOR MULTI-MORBIDITY DELIVERY, FINACING AND PERFOMANCE (SELFIE)

Thokala P, Devlin N, Marsh K, Baltussen R, Boysen M, Kalo Z, Longrenn T, Mussen F, Peacock S, Watkins J, Ijzerman M: Multiple Criteria Decision Analysis for Health Care Decision Making-An Introduction: Report 1 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:1-13. PMID: 26797229

Marsh K, IJzerman M, Thokala P, Baltussen R, Boysen M, Kalo Z, Lonngren T, Mussen F, Peacock S, Watkins J, Devlin N, ISPOR Task Force: Multiple Criteria Decision Analysis for Health Care Decision Making-Emerging Good Practices: Report 2 of the ISPOR MCDA Emerging Good Practices Task Force. Value Health 2016;19:125-37. PMID: 27021745

Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Wen S, Zhang L, Yang B: Two approaches to incorporate clinical data uncertainty into multiple criteria decision analysis for benefit-risk assessment of medicinal products. Value Health 2014;17:619-28. PMID: 25128056

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. PMID: 27712701

Schünemann HJ, Neumann I, Hultcrantz M, Brignardello-Petersen R, Zeng L, Murad MH, Izcovich A, Morgano GP, Baldeh T, Santesso N, Cuello CG, Mbuagbaw L, Guyatt G, Wiercioch W, Piggott T, De Beer H, Vinceti M, Mathioudakis AG, Mayer MG, Mustafa R, Filippini T, Iorio A, Nieuwlaat R, Marcucci M, Coello PA, Bonovas S, Piovani D, Tomlinson G, Akl EA, GRADE Working Group: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

絶対リスク・絶対効果・正味の益

介入の益と害を定量的に評価するためには、絶対効果を知る必要があります。比較する2群の絶対リスクの差が絶対効果です。米AHRQ Agency for Healthcare Research and Quality医療研究・品質調査機構 のShared Decision Making (SMD)共有意思決定に関する、 SHAREアプローチのツール5:数量リテラシーでは次のような表現が使われています。「絶対リスクはひとつのグループでの健康イベントの起きる数の推定値で、より強く個人のリスクを感じさせることができる。たとえば、”喫煙者は一生の間に2倍脳卒中を起こします”というよりも、”1000人のたばこを吸わない人では3人が一生の間に脳卒中を起こし、1000人のたばこを吸う人は6人が一生の間に脳卒中を起こします”と説明すべき。」

これを読むだけで絶対リスクが何かは分かります。つまり、ひとつの群におけるアウトカムの起きた人数の割合で、単位人数当たりの頻度人数でも表すこともできます。”ひとつのグループでの健康イベントの推定値”という表現は非常に適確だと思います。後半部分で述べられている1000分6と1000分の3の差がリスク差です。つまり、暴露群の絶対リスク - 対照群の絶対リスク = リスク差です。ランダム化比較試験で介入の効果を見る場合は、介入群の絶対リスク - 対照群の絶対リスク=リスク差です。1000人あたりの頻度人数として表したいのであれば、リスク差に1000を掛け算します。

以上は、アウトカムが二値変数 binary or dichotomous variableの場合ですが、連続変数の場合は、ひとつのグループでの平均値です。ニ値変数は治癒、非治癒のような排他的な二つの事象のどちらか片方が対象者に起きます。片方が起きる割合を1から引き算するともう片方の起きる割合になります。

さて、ピクトグラムでは絶対リスクやリスク差がどのように表現されるか見てみましょう。

図1.ピクトグラム。2つのアウトカムが測定されたランダム化比較試験の結果。

架空の臨床試験ですが、ランダム化比較試験で2つのアウトカムが測定されたとします。アウトカム1は有害事象が測定されましたが、介入によるその減少が推定されており、益のアウトカムとして設定されました。アウトカム2は有害事象が測定され、介入によりその増加が推定されており、害のアウトカムとして設定されました。

試験の結果を1000人単位のピクトグラムで表すとこのスライドのようになります。 ピクトグラムでは対照群と介入群のそれぞれのアウトカムに対する絶対リスクを表すことができます。このピクトグラムは1行25人で、40行、計1000人単位で一つの群を表しています。

左の2列が対照群、右の2列が介入群で、それぞれ左側は益を得られた人数(Benetif Outcomes)を青、右側は害が起きた人数(Harm Outcomes)を赤で表しています。それぞれ塗りつぶされているアイコンの数が1000人あたりの、対応する人数を表しています。

アウトカム1の場合は、益のアウトカムとして、有害事象が測定されているので、その事象が起きなかった人数を表しています。測定された有害事象であるアウトカム1が起きた人数は対照群で500人、介入群で100人で、有害事象が減少しましたが、それぞれ1000から引き算した人数をプロットしてあります。アウトカム2の場合は、有害事象が測定されているので、そのままその事象が起きた人数を表しています。

もし、2つのアウトカムの重要度が同じであれば、対照群でBenefit Outcomesの人数から、Harm Outcomesの人数を引き算すると対照群の正味の益Dcが1000人あたりの人数として得られます。この例では、Dc=500-50 = 450となります。介入群では、同様に正味の益Di = 900-100 = 800となります。介入群の正味の益から対照群の正味の益を引き算すると、この介入によって得られる正味の益になります。すなわち、800 – 450 =350が、アウトカムの重要度を同じとみなした場合の、1000人あたりでの正味の益を表します。しかし、2つのアウトカムの重要度が同じという場合は稀でしょう。

アウトカム1の重要度を100とし、アウトカム2の重要度を20とした場合は、対照群の重要度で調整された差aDc=500 – 50×20/100 = 490、介入群の重要度で調整された差aDi=900-100×20/100 = 880となり、介入により得られる正味の益は880-490 =390となります。すなわちアウトカム1の価値に合わせた場合、1000人あたり390人がそれだけの価値のアウトカムが起きることを示します。ピクトグラムではHarm Outcomesのシェードをつけたアイコンが重要度で重みづけした頻度人数を表しています。Benefit Outcomesはアウトカム1に対応しており、測定されたアウトカム1が起きなかった、1000人あたりの人数を表しており、重要度は100にしたので、全数がシェードがついたアイコンになります。

アウトカム2はアウトカム1の5分の1の重要度なので、アウトカム1のスケールに合わせた場合、50人分を10人分、100人分を20人分とみなすことになります。これら重要度で調整された人数が赤のシェードを付けたアイコンの数になります。

リスク差から計算しても同じ結果が得られます。リスク差を計算する時は、介入群の絶対リスク-対照群の絶対リスクとして計算します。リスク差を計算すると、益のアウトカムであるアウトカム1に対して、測定された有害事象のアウトカムでは、絶対リスク 0.1-0.5 = -0.4ですが、有害事象なのでプラスマイナスを逆にし、RD1 = 0.4となります。RDはRisk Differenceです。害のアウトカムであるアウトカム2に対しては、RD2 = 0.1-0.05 = 0.05となります。アウトカムの重要度で調節しないと、正味の益=0.4-0.05=0.35となりますが、アウトカムの重要度で調整すると、正味の益=1×0.4-0.2×0.05=0.39となります。これらを1000人あたりに換算すると、390人となります。

おなじランダム化比較試験の結果をリスク差をプロットした横棒グラフにしてみます。

図2.横棒グラフによるリスク差の表示。

絶対効果 = 介入群の絶対リスク - 対照群の絶対リスク、すなわちリスク差 で計算し、介入群が優位のアウトカムは右向きの横棒、対照群が優位のアウトカムは左向きの横棒で表すと、この図のようになります。

有益事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はプラスの値になるので、そのまま右向きの横棒として描画します。有害事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はマイナスの値になるので、正負を逆にして右向きの横棒として描画します。X軸の値は0.4、1000人あたりの頻度人数400です。

有害事象がアウトカムとして測定された場合は、対照群が優位の場合、絶対効果はプラスの値になるので、左向きの横棒として描画し、左側がプラスのスケールにします。X軸の値は0.05、1000人あたりの頻度人数50です。

下段のグラフの例は、益のアウトカムの重要度を100、それに対して相対的に、害のアウトカムの重要度を20とした場合の、棒グラフです。イベント数=頻度人数を益のアウトカムの価値に合わせた人数にするため、X軸の値は、それぞれ0.4と0.01、1000人あたりの頻度人数400と10です。

いずれのグラフを見ても、介入によりアウトカム1に相当する益を受けられる人が、390人増えることが分かります。

また、このようなグラフを作成したり、グラフを解釈するには、アウトカムが有害事象なのか有益事象なのか、リスク差がいずれの群を基準にして計算し、値がプラスなのかマイナスなのかに注意が必要です。

今回取り上げた例は、益のアウトカムが1つ、害のアウトカムが1つのシンプルな例ですが、アウトカムの数がもっと多い場合、そして、アウトカムによって、優位となる介入が異なる場合は、複雑な判断が求められ、直感では処理しきれなくなるかもしれません。その時は、Multi-Criteria Decision Analysis (MCDA)のようなQuantitative Benefit-Risk AnalysisあるいはQuantitative Benefit-Harm Analysisが有用と考えられています。

アウトカムの重要度 importance of outcome は意思決定者がそのアウトカムに置く価値の大きさです。Priorities and preferences, Values and preferences, Values, Patient preferencesなどとも呼ばれています。臨床試験の際にこれらの情報を記録することも検討されています。

Valuesですから、個人個人の価値観により異なるのが普通です。その測定法として、Simple direct weighting, Swing weighting, Analytic hierarchy process, Discrete-choice experimentsなど様々な方法(Ho M 2016)が報告されています。

文献(一部のみ):
Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Brett Hauber A, Fairchild AO, Reed Johnson F: Quantifying benefit-risk preferences for medical interventions: an overview of a growing empirical literature. Appl Health Econ Health Policy 2013;11:319-29. doi: 10.1007/s40258-013-0028-y PMID: 23637054

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. doi: 10.1016/j.jval.2016.02.019 PMID: 27712701

Janssens R, Barbier L, Muller M, Cleemput I, Stoeckert I, Whichello C, Levitan B, Hammad TA, Girvalaki C, Ventura JJ, Bywall KS, Pinto CA, Schoefs E, Katz EG, Kihlbom U, Huys I: How can patient preferences be used and communicated in the regulatory evaluation of medicinal products? Findings and recommendations from IMI PREFER and call to action. Front Pharmacol 2023;14:1192770. doi: 10.3389/fphar.2019.01009 PMID: 37663265

Entrustable Professional Activity (EPA)委託可能な専門的活動:医学部生、研修医、専門医

アメリカの医学教育、研修医教育、専門医教育はEPAという概念で、学習目標が設定されており、マイルストーンによって、到達目標も示されています。アセスメントの基準についても明確にされています。以前解説したことがあります。

例えば、アメリカ消化器病学会American Gastroenterological Association (AGA)と関連学会は、2014年に13のコアEPAを提示しています。

AGA 13のEPA
1. Manage common acid peptic related problems.
2. Manage common functional gastrointestinal disorder
3. Manage common gastrointestinal motility disorders
4. Manage liver diseases
5. Manage complications of cirrhosis
6. Perform upper and lower endoscopic evaluation of the luminal gastrointestinal tract for screening, diagnosis, and intervention
7. Perform endoscopic procedures for the evaluation and management of gastrointestinal bleeding
8. Manage biliary disorders
9. Manage pancreatic diseases
10. Manage common GI infections in non-immunosuppressed and immunocompromised populations
11. Identify and manage patients with noninfectious GI luminal disease
12. Manage common GI and liver malignancies, and associated extraintestinal cancers
13. Assess nutritional status and develop and implement nutritional therapies in health and disease

Rose S, Fix OK, Shah BJ, Jones TN, Szyjkowski RD: Entrustable professional activities for gastroenterology fellowship training. Gastroenterology 2014;147:233-42. doi: 10.1053/j.gastro.2014.04.038 PMID: 24954665

EPAという概念には、対象者にその業務を信頼して委託できるか=まかせられるかという概念が含まれていますので、単に知識・技能を十分習得しただけでは、不十分なこともありますし、評価法も多選択肢問題をパスすればいいというだけでは済まなくなります。指導者が判断し、一緒に業務を行う人たち、業務の対象になる人たち、360度の評価も必要になります。指導者は学習者が独立して一人で作業をできるかをさまざまなレベルで評価する必要があります。

アメリカ医科大学協会(AAMC)が作成した、レジデンシー前のコア委託可能な専門的活動(Core EPA)のひとつ、”EPA 7: 患者ケアを進めるためのクリニカルクエスチョンの作成とエビデンスの検索”を日本語に翻訳してみました。こちらのExcelのファイルです。

この図の中に、”修正のため対応が必要な態度”という欄があり、”問題に対するアプローチを考え直す、助けを求める、あるいは新しい情報を探すことをしない”、そして、”新しい情報テクノロジーを使おうとしない”、”文献のさまざまなギャップと限界を考慮すること、あるいは、出版されているエビデンスを具体的な患者ケアに適用することを拒絶する”、”医療チームと知見について議論することをしない。促されても、アウトカムおよび/あるいはプロセスを決めたり議論することをしない”という項目があります。 これらは、学部学生の段階で、修正が必要とされています。

AAMCのCore EPAの解説とリソースはこちら、EPA Toolkitsはこちらです。

また、ACGME (Accreditation Council for Graduate Medical Education) 米国卒後医学教育認定評議会はマイルストーンを提示しています。The Milestones Guidebook, The Milestones Guidebook for Residents and Fellowsなどもあります。

診断の統計学基礎

表記のタイトルでスライドと解説をまとめました。最後のスライドの解説にはQuizへのリンクも付けてあります。Analytic frameworkでの位置づけ、ベイズの定理、ROC解析、多項ロジスティック回帰分析、共分散による感度の調整、治療検査閾値、などについて解説します。

診断は感度・特異度の世界のままで、実臨床への応用においてはまだまだ未発達だと思います。2つの診断法を比較して、どちらを実施すべきかを決めるために、それぞれの診断法の感度・特異度だけでもいいかもしれませんが、実臨床の場では、複数の診断法を組み合わせるのがノルムで、その場合の感度・特異度はいくつなのかについてはデータがほとんどありません。さらに、陽性・陰性の二値ではなく、診断法の結果は3つ以上のカテゴリの場合も普通です。鑑別診断では疾患がある無しではなく、3つ以上の想定される疾患からどの疾患の可能性が一番高いかを決めるのが普通です。

こちらですLink