絶対リスク・絶対効果・正味の益

介入の益と害を定量的に評価するためには、絶対効果を知る必要があります。比較する2群の絶対リスクの差が絶対効果です。米AHRQ Agency for Healthcare Research and Quality医療研究・品質調査機構 のShared Decision Making (SMD)共有意思決定に関する、 SHAREアプローチのツール5:数量リテラシーでは次のような表現が使われています。「絶対リスクはひとつのグループでの健康イベントの起きる数の推定値で、より強く個人のリスクを感じさせることができる。たとえば、”喫煙者は一生の間に2倍脳卒中を起こします”というよりも、”1000人のたばこを吸わない人では3人が一生の間に脳卒中を起こし、1000人のたばこを吸う人は6人が一生の間に脳卒中を起こします”と説明すべき。」

これを読むだけで絶対リスクが何かは分かります。つまり、ひとつの群におけるアウトカムの起きた人数の割合で、単位人数当たりの頻度人数でも表すこともできます。”ひとつのグループでの健康イベントの推定値”という表現は非常に適確だと思います。後半部分で述べられている1000分6と1000分の3の差がリスク差です。つまり、暴露群の絶対リスク - 対照群の絶対リスク = リスク差です。ランダム化比較試験で介入の効果を見る場合は、介入群の絶対リスク - 対照群の絶対リスク=リスク差です。1000人あたりの頻度人数として表したいのであれば、リスク差に1000を掛け算します。

以上は、アウトカムが二値変数 binary or dichotomous variableの場合ですが、連続変数の場合は、ひとつのグループでの平均値です。ニ値変数は治癒、非治癒のような排他的な二つの事象のどちらか片方が対象者に起きます。片方が起きる割合を1から引き算するともう片方の起きる割合になります。

さて、ピクトグラムでは絶対リスクやリスク差がどのように表現されるか見てみましょう。

図1.ピクトグラム。2つのアウトカムが測定されたランダム化比較試験の結果。

架空の臨床試験ですが、ランダム化比較試験で2つのアウトカムが測定されたとします。アウトカム1は有害事象が測定されましたが、介入によるその減少が推定されており、益のアウトカムとして設定されました。アウトカム2は有害事象が測定され、介入によりその増加が推定されており、害のアウトカムとして設定されました。

試験の結果を1000人単位のピクトグラムで表すとこのスライドのようになります。 ピクトグラムでは対照群と介入群のそれぞれのアウトカムに対する絶対リスクを表すことができます。このピクトグラムは1行25人で、40行、計1000人単位で一つの群を表しています。

左の2列が対照群、右の2列が介入群で、それぞれ左側は益を得られた人数(Benetif Outcomes)を青、右側は害が起きた人数(Harm Outcomes)を赤で表しています。それぞれ塗りつぶされているアイコンの数が1000人あたりの、対応する人数を表しています。

アウトカム1の場合は、益のアウトカムとして、有害事象が測定されているので、その事象が起きなかった人数を表しています。測定された有害事象であるアウトカム1が起きた人数は対照群で500人、介入群で100人で、有害事象が減少しましたが、それぞれ1000から引き算した人数をプロットしてあります。アウトカム2の場合は、有害事象が測定されているので、そのままその事象が起きた人数を表しています。

もし、2つのアウトカムの重要度が同じであれば、対照群でBenefit Outcomesの人数から、Harm Outcomesの人数を引き算すると対照群の正味の益Dcが1000人あたりの人数として得られます。この例では、Dc=500-50 = 450となります。介入群では、同様に正味の益Di = 900-100 = 800となります。介入群の正味の益から対照群の正味の益を引き算すると、この介入によって得られる正味の益になります。すなわち、800 – 450 =350が、アウトカムの重要度を同じとみなした場合の、1000人あたりでの正味の益を表します。しかし、2つのアウトカムの重要度が同じという場合は稀でしょう。

アウトカム1の重要度を100とし、アウトカム2の重要度を20とした場合は、対照群の重要度で調整された差aDc=500 – 50×20/100 = 490、介入群の重要度で調整された差aDi=900-100×20/100 = 880となり、介入により得られる正味の益は880-490 =390となります。すなわちアウトカム1の価値に合わせた場合、1000人あたり390人がそれだけの価値のアウトカムが起きることを示します。ピクトグラムではHarm Outcomesのシェードをつけたアイコンが重要度で重みづけした頻度人数を表しています。Benefit Outcomesはアウトカム1に対応しており、測定されたアウトカム1が起きなかった、1000人あたりの人数を表しており、重要度は100にしたので、全数がシェードがついたアイコンになります。

アウトカム2はアウトカム1の5分の1の重要度なので、アウトカム1のスケールに合わせた場合、50人分を10人分、100人分を20人分とみなすことになります。これら重要度で調整された人数が赤のシェードを付けたアイコンの数になります。

リスク差から計算しても同じ結果が得られます。リスク差を計算する時は、介入群の絶対リスク-対照群の絶対リスクとして計算します。リスク差を計算すると、益のアウトカムであるアウトカム1に対して、測定された有害事象のアウトカムでは、絶対リスク 0.1-0.5 = -0.4ですが、有害事象なのでプラスマイナスを逆にし、RD1 = 0.4となります。RDはRisk Differenceです。害のアウトカムであるアウトカム2に対しては、RD2 = 0.1-0.05 = 0.05となります。アウトカムの重要度で調節しないと、正味の益=0.4-0.05=0.35となりますが、アウトカムの重要度で調整すると、正味の益=1×0.4-0.2×0.05=0.39となります。これらを1000人あたりに換算すると、390人となります。

おなじランダム化比較試験の結果をリスク差をプロットした横棒グラフにしてみます。

図2.横棒グラフによるリスク差の表示。

絶対効果 = 介入群の絶対リスク - 対照群の絶対リスク、すなわちリスク差 で計算し、介入群が優位のアウトカムは右向きの横棒、対照群が優位のアウトカムは左向きの横棒で表すと、この図のようになります。

有益事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はプラスの値になるので、そのまま右向きの横棒として描画します。有害事象がアウトカムとして測定された場合は、介入群が優位の場合、絶対効果はマイナスの値になるので、正負を逆にして右向きの横棒として描画します。X軸の値は0.4、1000人あたりの頻度人数400です。

有害事象がアウトカムとして測定された場合は、対照群が優位の場合、絶対効果はプラスの値になるので、左向きの横棒として描画し、左側がプラスのスケールにします。X軸の値は0.05、1000人あたりの頻度人数50です。

下段のグラフの例は、益のアウトカムの重要度を100、それに対して相対的に、害のアウトカムの重要度を20とした場合の、棒グラフです。イベント数=頻度人数を益のアウトカムの価値に合わせた人数にするため、X軸の値は、それぞれ0.4と0.01、1000人あたりの頻度人数400と10です。

いずれのグラフを見ても、介入によりアウトカム1に相当する益を受けられる人が、390人増えることが分かります。

また、このようなグラフを作成したり、グラフを解釈するには、アウトカムが有害事象なのか有益事象なのか、リスク差がいずれの群を基準にして計算し、値がプラスなのかマイナスなのかに注意が必要です。

今回取り上げた例は、益のアウトカムが1つ、害のアウトカムが1つのシンプルな例ですが、アウトカムの数がもっと多い場合、そして、アウトカムによって、優位となる介入が異なる場合は、複雑な判断が求められ、直感では処理しきれなくなるかもしれません。その時は、Multi-Criteria Decision Analysis (MCDA)のようなQuantitative Benefit-Risk AnalysisあるいはQuantitative Benefit-Harm Analysisが有用と考えられています。

アウトカムの重要度 importance of outcome は意思決定者がそのアウトカムに置く価値の大きさです。Priorities and preferences, Values and preferences, Values, Patient preferencesなどとも呼ばれています。臨床試験の際にこれらの情報を記録することも検討されています。

Valuesですから、個人個人の価値観により異なるのが普通です。その測定法として、Simple direct weighting, Swing weighting, Analytic hierarchy process, Discrete-choice experimentsなど様々な方法(Ho M 2016)が報告されています。

文献(一部のみ):
Tervonen T, Veldwijk J, Payne K, Ng X, Levitan B, Lackey LG, Marsh K, Thokala P, Pignatti F, Donnelly A, Ho M: Quantitative Benefit-Risk Assessment in Medical Product Decision Making: A Good Practices Report of an ISPOR Task Force. Value Health 2023;26:449-460. doi: 10.1016/j.jval.2022.12.006 PMID: 37005055

Brett Hauber A, Fairchild AO, Reed Johnson F: Quantifying benefit-risk preferences for medical interventions: an overview of a growing empirical literature. Appl Health Econ Health Policy 2013;11:319-29. doi: 10.1007/s40258-013-0028-y PMID: 23637054

Ho M, Saha A, McCleary KK, Levitan B, Christopher S, Zandlo K, Braithwaite RS, Hauber AB, Medical Device Innovation Consortium’s Patient Centered Benefit-Risk Steering Committee: A Framework for Incorporating Patient Preferences Regarding Benefits and Risks into Regulatory Assessment of Medical Technologies. Value Health 2016;19:746-750. doi: 10.1016/j.jval.2016.02.019 PMID: 27712701

Janssens R, Barbier L, Muller M, Cleemput I, Stoeckert I, Whichello C, Levitan B, Hammad TA, Girvalaki C, Ventura JJ, Bywall KS, Pinto CA, Schoefs E, Katz EG, Kihlbom U, Huys I: How can patient preferences be used and communicated in the regulatory evaluation of medicinal products? Findings and recommendations from IMI PREFER and call to action. Front Pharmacol 2023;14:1192770. doi: 10.3389/fphar.2019.01009 PMID: 37663265

Entrustable Professional Activity (EPA)委託可能な専門的活動:医学部生、研修医、専門医

アメリカの医学教育、研修医教育、専門医教育はEPAという概念で、学習目標が設定されており、マイルストーンによって、到達目標も示されています。アセスメントの基準についても明確にされています。以前解説したことがあります。

例えば、アメリカ消化器病学会American Gastroenterological Association (AGA)と関連学会は、2014年に13のコアEPAを提示しています。

AGA 13のEPA
1. Manage common acid peptic related problems.
2. Manage common functional gastrointestinal disorder
3. Manage common gastrointestinal motility disorders
4. Manage liver diseases
5. Manage complications of cirrhosis
6. Perform upper and lower endoscopic evaluation of the luminal gastrointestinal tract for screening, diagnosis, and intervention
7. Perform endoscopic procedures for the evaluation and management of gastrointestinal bleeding
8. Manage biliary disorders
9. Manage pancreatic diseases
10. Manage common GI infections in non-immunosuppressed and immunocompromised populations
11. Identify and manage patients with noninfectious GI luminal disease
12. Manage common GI and liver malignancies, and associated extraintestinal cancers
13. Assess nutritional status and develop and implement nutritional therapies in health and disease

Rose S, Fix OK, Shah BJ, Jones TN, Szyjkowski RD: Entrustable professional activities for gastroenterology fellowship training. Gastroenterology 2014;147:233-42. doi: 10.1053/j.gastro.2014.04.038 PMID: 24954665

EPAという概念には、対象者にその業務を信頼して委託できるか=まかせられるかという概念が含まれていますので、単に知識・技能を十分習得しただけでは、不十分なこともありますし、評価法も多選択肢問題をパスすればいいというだけでは済まなくなります。指導者が判断し、一緒に業務を行う人たち、業務の対象になる人たち、360度の評価も必要になります。指導者は学習者が独立して一人で作業をできるかをさまざまなレベルで評価する必要があります。

アメリカ医科大学協会(AAMC)が作成した、レジデンシー前のコア委託可能な専門的活動(Core EPA)のひとつ、”EPA 7: 患者ケアを進めるためのクリニカルクエスチョンの作成とエビデンスの検索”を日本語に翻訳してみました。こちらのExcelのファイルです。

この図の中に、”修正のため対応が必要な態度”という欄があり、”問題に対するアプローチを考え直す、助けを求める、あるいは新しい情報を探すことをしない”、そして、”新しい情報テクノロジーを使おうとしない”、”文献のさまざまなギャップと限界を考慮すること、あるいは、出版されているエビデンスを具体的な患者ケアに適用することを拒絶する”、”医療チームと知見について議論することをしない。促されても、アウトカムおよび/あるいはプロセスを決めたり議論することをしない”という項目があります。 これらは、学部学生の段階で、修正が必要とされています。

AAMCのCore EPAの解説とリソースはこちら、EPA Toolkitsはこちらです。

また、ACGME (Accreditation Council for Graduate Medical Education) 米国卒後医学教育認定評議会はマイルストーンを提示しています。The Milestones Guidebook, The Milestones Guidebook for Residents and Fellowsなどもあります。

診断の統計学基礎

表記のタイトルでスライドと解説をまとめました。最後のスライドの解説にはQuizへのリンクも付けてあります。Analytic frameworkでの位置づけ、ベイズの定理、ROC解析、多項ロジスティック回帰分析、共分散による感度の調整、治療検査閾値、などについて解説します。

診断は感度・特異度の世界のままで、実臨床への応用においてはまだまだ未発達だと思います。2つの診断法を比較して、どちらを実施すべきかを決めるために、それぞれの診断法の感度・特異度だけでもいいかもしれませんが、実臨床の場では、複数の診断法を組み合わせるのがノルムで、その場合の感度・特異度はいくつなのかについてはデータがほとんどありません。さらに、陽性・陰性の二値ではなく、診断法の結果は3つ以上のカテゴリの場合も普通です。鑑別診断では疾患がある無しではなく、3つ以上の想定される疾患からどの疾患の可能性が一番高いかを決めるのが普通です。

こちらですLink

四分表 Two-by-two table, 2×2 table

ランダム化比較試験で2つの治療選択肢の効果を比較する場合、ひとつのアウトカムに対して、アウトカムが二値変数Dichotomous variableであれば、いわゆる四分表 two-by-two table、 2×2 tableにデータをまとめます。

四分表はクロス集計表のひとつです。クロス集計表は二つのカテゴリー、例えば、男性と女性でいくつかのカテゴリーに分類される変数、例えば、好きなスポーツ、について度数を集計したような場合に作成されるものです。四分表ではその変数が二つのカテゴリーに分類される場合のクロス集計表に相当することになります。

例えば、このような表です。a, b, c, d, nt, ncは人数を表します。

アウトカム(+)アウトカム(-)症例数
介入群abnt
対照群cdnc

診断精度に関する研究の場合も、対象者が疾患あり、なしの二値変数で分類され、診断検査法の結果が陽性・陰性の二値変数の場合は、同様に四分表で結果を表し、診断能の指標である感度・特異度が算出されます。

陽性陰性症例数
疾患群abnd
対照群cdnc
感度=a/(a + b) = a/nd 特異度 = c/(c+ d) = c/nc

このように四分表はさまざまな分析で活用されますが、単純化され、分かりやすいという利点があります。ランダム化比較試験で介入の効果を表すために効果指標としてリスク比、オッズ比、リスク差などが計算されますが、上記の四分表のデータであれば以下の様に計算されます。

リスク比 = [a/(a + b)]/[c/(c + d)] = (a/nt)/(c/nc)

オッズ比 = (a/b)/(c/d)

リスク差 = a/(a + b) – c/(c +d)

これらの効果指標の95%信頼区間を計算し不確実性の評価ができますし、アウトカム(+)の割合に差が無いという帰無仮説に対するP値を計算することもできます。

四分表は単純化されているという点について少し考えてみましょう。ランダム化比較試験の例について元データはどのようなものか考えてみます。元データは、個人個人のデータを1行に集計します。それを症例数分集めます。上記の四分表のデータからは以下の様な元データが復元できます。アウトカムは1がアウトカム(+)、0がアウトカム(-)を意味します。もし各群で平均値を計算 すると、アウトカム(+)の症例の割合が得られます。

症例番号治療アウトカム
1介入1
2介入0
3介入1

介入群の症例数nt人分の行が続く:           1がa人、0がb人

例えば51対照0
52対照0
53対照1

対照群の症例数nc人分の行が続く:          1がc人、0がd人

さて、治療選択肢とアウトカム以外のそれぞれの個人の属性についてのデータはここでは含まれていません。治療選択肢が2つ、アウトカムが2つの値をとる変数であるため、クロス集計表を作成すると四分表になります。その他の、それらの属性の中にアウトカムに影響を与える因子が含まれているのが普通です。たとえば、年齢はさまざまな疾患で生存を含め、さまざまなアウトカムに影響を与えるはずです。もし年齢が介入群で対照群より若い場合、結果は介入群に有利に働く可能性が高くなります。

実際には元データは以下の様にさまざまな属性のデータを含んでいます。病期、重症度などもアウトカムに影響を与えるでしょう。

症例番号治療アウトカム性別年齢病期重症度その他・・・
1 介入1男性55I1・・・
2介入0女性75II2・・・
3介入1女性62I1・・・

介入群の症例数nt人分の行が続く:  アウトカム1がa人、0がb人

例えば51 対照0 女性 70II 2 ・・・
52対照0男性83II2・・・
53対照1男性74I1・・・

対照群の症例数nc人分の行が続く: アウトカム1がc人、0がd人

これらの因子を無視して介入の効果を証明することは可能なのでしょうか?もし可能だとしたら、ランダム割り付けが適切に実施され、介入群と対照群でこれらの因子、すなわち背景因子についてバランスがとれていることが前提として必要になります。

実際には、ランダム化を危うくするバイアスがあり、例えばコンシールメントがされていない場合がそれに該当します。コンシールメントは担当医が割り付けを予測できないようにすることで、例えば、中央管理で割り付けが通知されるような方法がとられていれば、コンシールメントは守られ、他のバイアスがない場合には、ランダム化が確実になると言えます。

観察研究では背景因子のバランスを取るために、傾向スコア解析Propensity score analysisや操作変数法Instrumental variable methodなどが用いられることがありますが、未知の因子についてはバランスを取ることはできないため、ランダム化の達成には限界があります。

ここでいう背景因子は交絡因子に相当するものです。つまり、割り付けとアウトカムの両方に影響を与える共通因子です。交絡因子の影響はデータ解析の時点である程度調整が可能で、そのためには多変量解析が用いられます。多変量解析では各説明変数間の相関も加味されてそれぞれの変数の介入の効果への関わりの程度を知ることができるとともに、それらで調整された介入の効果を知ることができます。ランダム化比較試験でも多変量解析が意味を持つ場合があります。

四分表を用いて解析をする際には、元データを想像することが重要だと思います。四分表だけを見ているとそれを忘れがちです。

アウトカムが二値変数であれば、異なるアウトカムに対して、それぞれ四分表を作成することができます。しかし、それら四分表のデータから元データの表を復元することはできません。それら因子の間の相関については、個別の四分表からは知ることができません。

相関を知りたい変数のデータが個々の症例について必要になります。データ収集の際にはこの点も認識しておく必要があります。これは複数の診断検査を診断に用いる場合には、個別の診断検査の感度・特異度だけでは不十分であり、それらの共分散(あるいは相関)のデータが必要であるということとも関係しています。

また、アウトカムのカテゴリーが3つ以上、治療のカテゴリーが3つ以上の場合は、2×3や3×3になったりします。2×2は一番単純で、解析もより容易ですが、オールマイティ―というわけではありません。