EBM crisis?

MGICappのウェブサイトPublicationsのタブを開くと、Vandvik Pの2016年のGuidelines International Network (G-I-N)における”The Evidence Ecosystem”と題する発表のビデオがあり、その2分6秒(2:06)で取り上げられている論文が、2014年のGreenhalgh TらのBMJに発表された論文です。タイトルは”Evidence based medicine: a movement in crisis?”です。7年前の論文ですが、「Evidence based medicineは多くの利点があったが、いくつかの意図されなかった負の結果があった」ことが述べられています。

Crisisとして挙げられているのは、次のようなことです:
・エビデンスに基づいた「品質マーク」が既得権益者に悪用されている。
・エビデンスの量、特に臨床ガイドラインの量が多すぎて参照しきれなくなっている。
・統計的に有意な利益は、臨床現場ではわずかmarginalなものかもしれない。
・融通の利かないルールやテクノロジーを駆使したプロンプトは、患者中心ではなくマネージメント主導のケアを生み出す可能性がある。
・エビデンスに基づくガイドラインは、複雑な多臓器疾患にはうまく対応できないことが多い。

次に、☆Real evidence based medicine(真のEBM)は次のようなものであると述べています:
・患者の倫理的なケアを最優先事項とする。
・臨床家と患者が理解できるフォーマットで個別化したエビデンスを求める。
・機械的な規則に従うことではなく専門家の決断により特徴づけられる。
・意味のある対話を通して患者と決断を共有する。
・臨床家-患者の強い関係とケアの人間的側面の上に構築する。
・エビデンスに基づく公衆衛生にはコミュニティーレベルでこれらの原則を適用する。

そして、☆真のEBMを提供するためのアクションとしては以下のものが挙げられています:
・患者はより良いエビデンス、より良い提示、よりよい説明、そしてより個別化した方法で適用されることを要求すべきである。
・臨床研修は文献検索と批判的吟味を超えた、専門家としての判断と協働意思決定Shared Decision Makingへ進むべきである。
・エビデンスサマリー、診療ガイドライン、意思決定支援ツールの作成者は利用者、目的、制約を明確にすべきである。
・出版者は研究が方法論的水準だけでなく利用しやすさusabilityの水準を満たすことを要求すべきである。
・政策決定者は既得権益者によるエビデンスの手段としての生成と利用に抵抗すべきである。
・独立した資金提供者が質の高い臨床的および公衆衛生のエビデンスの創生、統合、配布を形成することがますます必要である。
・研究計画はより広範で、より学際的で、疾患経験、エビデンスの解釈に関する心理学、臨床家と患者の交渉とエビデンスの共有、過剰診断による害の予防法を取り込むべきである。

そして、”真のEBMは個々の患者のケアを最優先事項とし、これらの状況下で、その疾患あるいは病態のこの時点で、何がこの患者のための最善の一連のアクションか、を問うものである”。”そのためには、エビデンスはその患者のために個別化されなければならない。適切なケアの決断は最善の(平均としての)エビデンスとは異なるかもしれない”と述べています。

この点ではDecision science, Multi-criteria decision analysis (MCDA)、Shared Decision Makingの理解と実践スキルが求められていると思います。

Comparative Effectiveness Research比較効果研究の必要性も関連してきます。

臨床研修はルールに従うことから、方向を変える必要があることも主張されています。”基礎的な数量リテラシーnumeracy、データベース検索、研究に対してシステマティックに質問できる能力を含む批判的吟味のスキルはEBMのコンピテンスの前提であり、臨床家はこれらを実際の患者に適用する必要がある”ということも述べられています。

最後に、☆真のEBMのためのキャンペーンとして、過剰医療への対策、すべての臨床研究の登録、医学研究おける無駄の低減、出版の水準の改善、統合化された医学教育が挙げられています。

2014年の論文なので、この論文で指摘された問題や課題は、今2021年の時点では、その後、解決されたり、解決に向かって進みつつあるものもあるでしょうし、2014年の時点ではまだわからずその後新たに出てきた問題や課題もあるでしょう。

MAGICappは、いまだ解決されていない課題に応えようとする活動のひとつのようですが、解決法はひとつではないでしょう。

エビデンスがないNo evidence

「。。。にはエビデンスがない」と言ったらその後には何が続くでしょう?

おそらく、「。。。はしない方がいい」でしょう。「。。。にはエビデンスがある」だったら?

おそらく、「。。。をした方がいい」でしょう。

果たしてこれでいいのでしょうか?

診療ガイドラインで推奨を作成する場合は、「。。。にはエビデンスがないから」「。。。をしないことを推奨する」でしょうか?「。。。にはエビデンスがあるから」「。。。をすることを推奨する」でしょうか?

エビデンスとはある・なしのどちらかでしょうか?さらに、益のエビデンスと害のエビデンスと両方考える必要があります。

US Preventive Task Force (USPSTF)は、推奨をA, B, C, D, Iに分類していることについて以前の投稿の中で述べました。この中で、Grade Cは”USPSTFは、専門家の判断と患者の好みPreferencesに基づいて、選択的に個人個人の患者に提供することを推奨する。正味の益が小さいことに少なくとも中等度の確実性がある”と定義されています。患者の好みPreferencesは患者の価値観と同義と考えてください。

Grade Iは”USPSTFは、現在のエビデンスがそのサービスの益と害のバランスを評価するのに不十分であると結論付ける。エビデンスはないか、貧弱か、あるいは矛盾しており、益と害のバランスを決められない”と定義されています。

益と害のバランスthe balance of benefits and harmsは正味の益the net benefitと同じ意味です。正味の益は、”The net benefit is defined as benefit minus harm of the preventive service as implemented in a general, primary care population. ” すなわち、その予防医療サービスが一般のプライマリケア集団で実行されるときの益ひく害が正味の益と定義される、と。ここでは益から害を減じた(引き算した)値を正味の益Net benefitと定義しています。

以上を前提に、Braithwaite RSの”EBM’s six dangerous words.” (文献)の意味を考えてみましょう。

“EBM’s six dangerous words.”とは”There is no evidence to suggest…”の6つの言葉のことです。つまり、「。。。を提案(示唆)するエビデンスはない」という表現のことです。

Braithwaite RSのこの論文における主張は、この表現は4つの意味でつかわれているので、そのどれなのかをわかるように最初からそれら4つの内のどれかの表現を使いましょうということです。

1.科学的エビデンスは決定的ではなく、どれが最善か分らない。(USPSTF Grade Iでベイジアン無情報事前分布の場合)
2.科学的エビデンスは決定的ではないが私の経験あるいはその他の知識は”X”を示唆する。(USPSTF Grade Iで”X”を示唆するベイジアン有情報事前分布の場合)
3.これは益がないことが証明されている(USPSTF Grade D)
4.これはどっちつかずで、ある患者には益が害を上回り、別の患者にはそうではない(USPSTF Grade C)

1の場合、USPSTFは、”臨床的考察のセクションを読み、もし、そのサービスを提供するのであれば、患者は益と害のバランスの不確実性を理解すべきである”とSuggestions for Practiceで述べています。すべきではないと決めつけているわけではありません。

2の場合は、1の場合と同様ですが、1と比べるとそのサービスが提供される可能性が高くなるでしょう。

1,2で事前分布Priorと言っているのは、Braithwaite RSです。USPSTFの記述にはありません。彼の考えは、その時点における仮説Hypothesisがあって、それが正しい確率P(H)が、その後データDataが得られるとその正しい確率P(H|D)はデータが正しい確率P(D)とその仮説が正しい時にそのデータが得られる確率P(D|H)によって決まるというベイズの定理の、P(H)のことです。P(H|D) = P(D|H)×P(H)/P(D)の式で表されます。

つまり、エビデンスが決定的でない、不確実性が高い場合でも、その程度は異なり、”私の経験あるいはその他の知識”の正しい確率=P(H)に相当する値は様々で、1の場合は、それが0に近い、2の場合は、もう少し大きいということになります。つまり、”今までの自分の経験や間接的なデータ、研究結果から、Xが有効の可能性が少しある”という場合と、”全くわからないが、Xはまず効果がある可能性は殆どゼロ”という場合では、判断が違ってきます。

3の場合は、害が益を上回る状態になります。だから、しない方がいい。

4の場合は、患者の価値観によって、ある患者にはすることになり、別の患者にはしなことになります。

とうことから、エビデンスがないからと言って、してはいけないという決断をすると多くの場合、間違った決断になってしまうでしょう。

臨床の現場では、何もしないという選択肢も含めて、どれかに決める必要があります。その際に、エビデンスがないからしない、という考え、また、診療ガイドラインにおいて、ランダム化比較試験がない領域では、推奨を作成することはできないという考えは、偏った考えではないでしょうか。

エビデンスの確実性は、All or nothingあるいは1か0かではありません。Quantitative Benefit-Risk Assessmentを行う際には、エビデンスの確実性を表すのに、確率分布を使います。以前の投稿、益と害の定量的評価法 Quantitative benefit-harm assessmentKeeney and RaiffaのSwing weightingを用いたMCDASwing weightingを用いたMCDAの結果、などを参照してください。

文献
Braithwaite RS: A piece of my mind. EBM’s six dangerous words. JAMA 2013;310:2149-50. doi: 10.1001/jama.2013.281996 PMID: 24281458

同じ論文が2020年に再掲されています。
Braithwaite RS: EBM’s Six Dangerous Words. JAMA 2020;323:1676-1677. doi: 10.1001/jama.2020.2855 PMID: 32369132

診療ガイドラインの活用促進

診療ガイドラインの普及、活用促進と推奨の順守の向上は科学的エビデンスに基づく診療ガイドラインの作成と同じくらい重要な課題です。それぞれの推奨が着実に実行されることで、医療が改善し、患者アウトカムが改善することが期待されます。しかし、診療ガイドラインの普及、活用そして推奨の順守はさまざまな因子の影響を受け、それらの程度は十分とは言えないのが現状です。

診療ガイドラインの開発の問題、推奨の提示の問題、診療ガイドラインの普及の問題、推奨の医療システムへの取り込みの問題、ICT活用の問題、医療提供者のニーズに十分応えられていない問題、患者のニーズに十分応えられていない問題、最新情報が取り込まれていない問題、新しい臨床研究への発展につなげられない問題、その他さまざまな問題を指摘することができるでしょう。

これらの問題に対処すべくさまざまな試みが行われています。すべての問題を解決するにはあらゆるステークホルダーの参加が必要になるでしょう。医療提供者が中心の診療ガイドライン作成者だけでは解決できない問題もあります。

2015年に発表されたBousquet Jらの”MACVIA-ARIA Sentinel NetworK for allergic rhinitis (MASK-rhinitis): the new generation guideline implementation”「アレルギー性鼻炎のためのMACVIA-ARIAセンチネルネットワーク(MASK-鼻炎):新世代のガイドライン導入」と題する論文は、多数の著者が名を連ねており日本からもいくつかの施設が参加している、アレルギー性鼻炎に対する国際的な試みについて述べています。European Innovation Partnership on ActiveとHealthy Ageing (EIP on AHA)のB3計画の一環として行われた研究です。タイトルに「新世代のガイドライン導入」とうたわれている程、革新的な大規模な試みと考えられます。

MACVIA-LR Contre les MAladies Chroniques pour un VIeillissement Actif en Languedoc‐Roussillon  (Fighting chronic diseases for active and healthy ageing) http://macvia.cr-languedocroussillon.fr) is a reference site of the European Innovation Partnership on Active and Healthy Ageing

ARIA Allergic Rhinitis and its Impact on Asthma
CARAT Control of Allergic Rhinitis and Asthma Test
MASK MACVIA-ARIA

診療ガイドラインと臨床決断支援ツールにICTを活用した以下の3つのツールが開発され、多言語で提供されています:
1.携帯電話(スマートフォン)による毎日のVisual Analogue Scale (VAS)による疾患コントロールの評価。
2.アレルギー性鼻炎と喘息検査のコントロール(CARAT, Control of Allergic Rhinitis and Asthma Test)。
3.医療前のオンラインツールによるアレルギーと喘息の早期診断(e-Allergy screening)。

MASK-rhinitisは、アレルギー性鼻炎の 診断、層別化、マネージメントおよび治療効果の評価のための新しいツールを代表するものであると述べられています。

また、Rapid guidelines, Living systematic reviews, Living guideline recommendationsなどの試みも広がりをみせ、クラスターランダム化比較試験で診療ガイドラインの有効性を実証しようとする試みも行われてきています。いくつかの論文を文献欄にあげておきます。

文献
Bousquet J, Schunemann HJ, Fonseca J, Samolinski B, Bachert C, Canonica GW, et al: MACVIA-ARIA Sentinel NetworK for allergic rhinitis (MASK-rhinitis): the new generation guideline implementation. Allergy 2015;70:1372-92. doi: 10.1111/all.12686 PMID: 26148220

Kowalski SC, Morgan RL, Falavigna M, Florez ID, Etxeandia-Ikobaltzeta I, Wiercioch W, Zhang Y, Sakhia F, Ivanova L, Santesso N, Schünemann HJ: Development of rapid guidelines: 1. Systematic survey of current practices and methods. Health Res Policy Syst 2018;16:61. doi: 10.1186/s12961-018-0327-8 PMID: 30005712

Florez ID, Morgan RL, Falavigna M, Kowalski SC, Zhang Y, Etxeandia-Ikobaltzeta I, Santesso N, Wiercioch W, Schünemann HJ: Development of rapid guidelines: 2. A qualitative study with WHO guideline developers. Health Res Policy Syst 2018;16:62. doi: 10.1186/s12961-018-0329-6 PMID: 30005710

Morgan RL, Florez I, Falavigna M, Kowalski S, Akl EA, Thayer KA, Rooney A, Schünemann HJ: Development of rapid guidelines: 3. GIN-McMaster Guideline Development Checklist extension for rapid recommendations. Health Res Policy Syst 2018;16:63. doi: 10.1186/s12961-018-0330-0 PMID: 30005679

Akl EA, Meerpohl JJ, Elliott J, Kahale LA, Schünemann HJ, Living Systematic Review Network: Living systematic reviews: 4. Living guideline recommendations. J Clin Epidemiol 2017;91:47-53. doi: 10.1016/j.jclinepi.2017.08.009 PMID: 28911999

Pai M, Lloyd NS, Cheng J, Thabane L, Spencer FA, Cook DJ, Haynes RB, Schünemann HJ, Douketis JD: Strategies to enhance venous thromboprophylaxis in hospitalized medical patients (SENTRY): a pilot cluster randomized trial. Implement Sci 2013;8:1. doi: 10.1186/1748-5908-8-1 PMID: 23279972

Aakhus E, Granlund I, Odgaard-Jensen J, Oxman AD, Flottorp SA: A tailored intervention to implement guideline recommendations for elderly patients with depression in primary care: a pragmatic cluster randomised trial. Implement Sci 2016;11:32. doi: 10.1186/s13012-016-0397-3 PMID: 26956726

SUCRA (Surface Under the Cumulative Ranking Curves)

SUCRAはNetwork Meta-analysisの結果について治療効果の順位を表す一つの指標です。累積順位曲線下面積という意味になります。それぞれの治療について累積順位確率を縦軸に順位を横軸にして描かれる曲線下の面積になるということです。

Network Meta-analysisでは3つ以上の治療法について比較することができ、その結果の一つとして 順位確率が得られます。また、統合値には間接比較の情報も取り込まれまれていますので、理論的にはペア比較のみの通常のメタアナリシスよりより確実性の高い結果が得られます。あくまで理論的にはです。

順位確率は一つの治療選択肢が1位、2位、3位…それぞれの順位になる確率を表すものです。 もしK個の治療が比較されたとすると、一つの治療について順位1からKまでの順位確率の総和は1.0になります。また それぞれの順位について全ての治療について順位確率の総和を求めるとやはり1.0になります。SUCRAはこれら順位確率の値から計算されます。

その治療法が1位になる確率、すなわち順位確率が2位以下の治療法と比べて、大きな差がある場合は、1位になる確率だけをみて、最善の治療法を選択しても問題はないと考えれらます。しかし、1位になる順位確率が次善の治療法と近い値の場合には、2位になる順位確率も考慮したほうが良いだろうということは直感的に理解できます。さらに、3位、4位、…の順位確率も全体を考慮しようとすると、SUCRAになります。

文献) Salanti G, Ades AE, Ioannidis JP: Graphical methods and numerical summaries for presenting results from multiple-treatment meta-analysis: an overview and tutorial. J Clin Epidemiol 2011;64:163-71. PMID: 20688472

下の図に 上記のSalanti Gらの論文からその計算方法を一つの例とともに示します。1位からK-1位までの累積順位確率の総和をK-1で割り算することによりSUCRAの値が得られます。SUCRAは値が100%の治療は最善であり、値が0の治療は最悪の治療と解釈されます。その値の順序は治療効果の順序を表しています。ここでは、SUCRAの値を%で表しています。計算式は図1にある通りで、順位確率から累積順位確率を求め、それらの総計をK-1で割り算するだけです。

図1.SUCRA計算例。データはSalanti G 2011より引用。

図1のSURCAをグラフ表示すると、以下のようなグラフになります。

図2.SUCRA曲線グラフ。曲線下の面積がSUCRAになる様に、横軸は順位に∔0.5した値のところにプロットされています。最下位のところはどの治療もすべて1.0になります。

SUCRAの計算式を見ると、K-順位の値を順位確率で重みづけして、合計値を求め、最大値が100、最小値が0になるように標準化しているだけなことがわかります。K-順位の値は、1位が最大で、最下位が最小になります。

SUCRAの意味を考えてみることにします。わかりやすくするために、4頭の競走馬がそれぞれ1位から4位になる確率がわかっていて、それぞれの順位の賞金が決まっている場合、どれくらいのリターンが得られといえるか考えてみます。図3にデータを示します。

図3.競走馬4頭のの獲得金額の予想。

順位確率の値は、図1の場合と同じにしました。ざっと眺めると、1位の確率が一番高いのは競走馬2です。競走馬4が最下位の確率が一番高いこともわかります。

まず左側の順位確率にそれぞれの賞金の額を掛け算した値を計算します。たとえば、競走馬1は25, 12.5, 7.5, 0となります。もし競走馬1が1位になったら、100万円の賞金が獲得できるわけですが、1位の確率は0.25なので、100×0.25=25万円が現在の価値です。もし2位になったら50万円の賞金が獲得できるわけですが、2位の確率は0.25なので、50×0.25=12.5万円が現在の価値です。3位、4位も同様に計算します。

確率で考えるとわかりにくい場合は、次のように考えてみてください。この表に示す競走馬1の場合、これらの確率で起きる事象を何回も繰り返すと、例えば、100万回繰り返すと、1位になるのが25万回、2位になるのが25万回、3位になるのが25万回、4位になるのが25万回にになるはずです。多項分布に従うので、回数が少ないともっとばらつきますが、100万回も繰り返せば、まずこうなるでしょう。さて、100万回競走馬1にかけた場合、獲得賞金の平均は、(100×25万+50×25万+30×25万+0×25万)/(25万+25万+25万+25万)=45万円です。

分かりやすくするために、100万回繰り返した場合を考えて計算しましたが、もともと順位確率を競走馬それぞれで合計すると1.0になるので、単純に先に計算した順位確率で重みづけした賞金金額を合計する、つまり25+12.5+7.5+0 = 45万円が競走馬1の予想獲得金額、いいかえると現在の価値となります。

さらに、予想される最高獲得金額は1位になった場合の、100万円、最小獲得金額は4位になった場合の0円なので、これら最大値、最小値を用いて標準化してみます。図3の右下の標準化賞金のところに書いてある計算式で計算します。つまり、予想獲得金額から最小値を引き算した値を、最大値から最小値を引き算した値で割り算し、%にするため100を掛け算します。この値は、最大で100、最小で0となります。各競走馬の標準化賞金を見ると、競走馬2が70万円で最高になります。この例では、1位の賞金が100、4位の賞金が0にしてあるので、平均賞金と標準化賞金が同じ額になっています。

それでは、賞金金額を先ほどのSUCRA計算時に使ったK-順位の値に置き換えて同じように計算してみます。1位から4位までの価値を3,2,1,0と設定することになります。平均価値は上記の平均賞金、標準化価値は同じく標準化賞金と同じ計算法です。

図4.SUCRA計算と同じ値を価値の大きさとした場合。

標準化価値はSUCRAと同じ値になります。SUCRAの計算はそれぞれの順位の価値をそれぞれの順位になる確率で重みづけした平均値と同じだということがわかります。それでは、なぜ、価値を3,2,1,0にする必要があるのでしょう?これを4,3,2,1に変えて同じ計算をやってみます。

図5.価値の値を変更。ただし、順序は同じで間隔も同じ。

標準化価値の値は全く同じです。SUCRAの計算はこのやり方でも算出できることがわかります。つまり、順序が同じで、間隔が同じ値を設定すると、SUCRAの値が計算できるということです。それでは、価値の値を100,80,60,40にしたらどうなるでしょうか。

図6.価値の値を絶対値は違うが順序は同じで間隔は一定の値にした場合。

図6の示すように、標準化価値はSUCRAと全く同じ値です。

それでは、順序は同じだが、間隔は異なる値を価値に設定したらどうなるか見てみましょう。

図7.順序は同じだが、間隔は異なる場合。

標準化価値は違う値になります。ただし、上下関係は変わりません。SUCRAは順位だけを問題にしているので、図1に示すような計算でいいのですが、1位と2位になった場合の絶対効果の大きさは違います。もしその治療が2位になったら、他の治療が1位になり、その治療のほうが効果が大きいはずです。

もし、各治療の絶対効果の大きさをK-順位のかわりに用いたら、順位は同じになりますが、それぞれの治療で得られるであろう絶対効果の大きさは異なる印象を与えかもしれません。たとえば、図7に示す例では、標準化する前の平均価値はSUCRAでは1位になる治療2が85、同じく2位になる治療3が80で大きな差は無いと思われます。

また、標準化する前の平均価値は最下位の価値を0にする場合と、そうでない場合で異なってきます。SUCRAは最下位を0にするので、それがプラセボや無治療であればいいのかもしれませんが、アクティブな治療の場合は、平均価値を0にすることに違和感があります。

順序変数は間隔が同じでないということがここには表れているとも言えます。順位は順序変数である、つまり1位と2位の間隔と2位と3位の間隔は必ずしも同じではないということです。

さて、GRADE approachではネットワークメタアナリシスのSoF (Summary of Findings) tableにはSUCRAを記述する欄があります。したがって、SURCRAの計算が必要になります。

文献)Yepes-Nuñez JJ, Li SA, Guyatt G, Jack SM, Brozek JL, Beyene J, Murad MH, Rochwerg B, Mbuagbaw L, Zhang Y, Flórez ID, Siemieniuk RA, Sadeghirad B, Mustafa R, Santesso N, Schünemann HJ: Development of the summary of findings table for network meta-analysis. J Clin Epidemiol 2019;115:1-13. PMID: 31055177