USPSTFの推奨Grade

U.S. Preventive Services Task Force (USPSTF)米国予防医療専門委員会は癌検診など予防医療の分野で臨床的予防サービスに関するエビデンスに基づく推奨を提言している全米の予防医学とEBMの専門家のボランティアの独立したパネルです。たとえば、2016年の乳癌スクリーニング大腸癌スクリーニング、2018年の前立腺癌スクリーニングに関する推奨はよく知られていると思います。

GRADEアプローチでは、推奨は強い・弱いの2段階で、する・しないの2方向ですが、その意味、特に弱い推奨の意味を考えるのに、正味の益の確実性の概念と、USPSTFの推奨グレードの分類を理解することは重要だと思います。

USPSTFの推奨グレードはA, B, C, D, Iの5分類です。推奨グレードは正味の益Net benefitの大きさとその確実性Certaintyによって決められています。

たとえば、Grade A推奨度Aは次のように定義されています:” The USPSTF recommends the service. There is high certainty that the net benefit is substantial. ” すなわち、正味の益が十分大きいことに高い確実性がある。USPSTFはその医療サービスを推奨する、と。

そして、正味の益Net benefitCertainy確実性は、” The USPSTF defines certainty as “likelihood that the USPSTF assessment of the net benefit of a preventive service is correct.” すなわち、予防医療サービスの正味の益に関するUSPSTFの評価が正しい可能性を確実性Certaintyと定義する、と。

そして、正味の益は”The net benefit is defined as benefit minus harm of the preventive service as implemented in a general, primary care population. ” すなわち、その予防医療サービスが一般のプライマリケア集団で実行されるときの益ひく害が正味の益と定義される、と。ここでは益から害を減じた(引き算した)値を正味の益Net benefitと定義しています。2016年にAnnals of Internal MedicineにDicision Modelsに関する論文を発表しています。

Owens DK, Whitlock EP, Henderson J, Pignone MP, Krist AH, Bibbins-Domingo K, Curry SJ, Davidson KW, Ebell M, Gillman MW, Grossman DC, Kemper AR, Kurth AE, Maciosek M, Siu AL, LeFevre ML, U.S. Preventive Services Task Force*: Use of Decision Models in the Development of Evidence-Based Clinical Preventive Services Recommendations: Methods of the U.S. Preventive Services Task Force. Ann Intern Med 2016;165:501-508. PMID: 27379742

そして、確実性のレベルについては、”The USPSTF assigns a certainty level based on the nature of the overall evidence available to assess the net benefit of a preventive service. ” すなわち、”予防医療サービスの正味の益を評価するために得られたエビデンス全体の性質に基づいてUSPSTFは確実性のレベルを設定する”、と。

USPSTFは、”正味の益の確実性”という考え方を、2007年から取り入れています。そして、Grade C推奨度Cの定義は2007年に一度変更し、さらに2012年に変更して以下の記述になっています。以下にGrade AからIまでの現在の定義を示します。正味の益の大きさに関する記述の部分を太字斜体、その確実性に関する記述の部分を太字に変えてあります。

Grade A: The USPSTF recommends the service. There is high certainty that the net benefit is substantial.

Grade B: The USPSTF recommends the service. There is high certainty that the net benefit is moderate or there is moderate certainty that the net benefit is moderate to substantial.

Grade C: The USPSTF recommends selectively offering or providing this service to individual patients based on professional judgment and patient preferences. There is at least moderate certainty that the net benefit is small.

Grade D: The USPSTF recommends against the service. There is moderate or high certainty that the service has no net benefit or that the harms outweigh the benefits.

Grade I : The USPSTF concludes that the current evidence is insufficient to assess the balance of benefits and harms of the service. Evidence is lacking, of poor quality, or conflicting, and the balance of benefits and harms cannot be determined.

Grade Cは、”専門家の判断と患者の好みPreferencesに基づいて、選択的に個人個人の患者に提供することを推奨する。正味の益が小さいことに少なくとも中等度の確実性がある”と定義されています。さらに、” Grade C recommendations are particularly sensitive to patient values and circumstances. Determining whether or not the service should be offered or provided to an individual patient will typically require an informed conversation between the clinician and patient. ” すなわち、Grade Cの推奨は特に患者の価値観と状況に左右される。その医療サービスを個人個人の患者に提供すべきかどうかを決めるには臨床家と患者の間で情報を与えられたうえでの話し合いが特に必要になる”と述べられています。

また、Grade Cの場合、集団のレベルで、益と害のバランスが拮抗している、そして正味の益の程度が小さいということはいままでと変わらない、とも述べています。
Despite these revisions, the essence of the C recommendation has remained consistent: at the population level, the balance of benefits and harms is very close, and the magnitude of net benefit is small.

すなわち、集団で見ると正味の益が小さい、すなわち益を得る人の割合が小さい場合でも、個人レベルで見ると益が大きい人たちがいるので、個別の判断が必要だということでしょう。今後のPrecision Meicine 精密医療の進歩によって、また推奨の分類が変わる可能性もあるかもしれません。

USPSTFはLevels of Certainty Regarding Net Benefitすなわち正味の益に関する確実性のレベルについて、以下の様にHigh, Moderate, Lowの3段階に分類しています。

High:
The available evidence usually includes consistent results from well-designed, well-conducted studies in representative primary care populations. These studies assess the effects of the preventive service on health outcomes. This conclusion is therefore unlikely to be strongly affected by the results of future studies.

Moderate:
Evidence is sufficient to determine effects on health outcomes, but the strength of the evidence is limited by the number, quality, or consistency of the individual studies, generalizability to routine practice, or indirect nature of the evidence on health outcomes. The available evidence is sufficient to determine the effects of the preventive service on health outcomes, but confidence in the estimate is constrained by such factors as:

・The number, size, or quality of individual studies.
・Inconsistency of findings across individual studies.
・Limited generalizability of findings to routine primary care practice.
・Lack of coherence in the chain of evidence.

As more information becomes available, the magnitude or direction of the observed effect could change, and this change may be large enough to alter the conclusion.

Low:
Evidence is insufficient to assess the effects on health outcomes because of limited number or power of studies, important flaws in their design or conduct, gaps in the chain of evidence, or lack of information on important health outcomes.

The available evidence is insufficient to assess effects on health outcomes. Evidence is insufficient because of:
・ The limited number or size of studies.
・ Important flaws in study design or methods.
・ Inconsistency of findings across individual studies.
・ Gaps in the chain of evidence.
・ Findings not generalizable to routine primary care practice.
・ Lack of information on important health outcomes.

More information may allow estimation of effects on health outcomes.

ここで言う確実性の分類の基準では、効果Effectあるいは効果推定値Effect estimateについて言及しているだけで、益と害については言及していません。2007年以前のエビデンスの質Quality of Evidenceの分類ではGood, Fair, Poorとなっていましたが、基本的には同じと考えられます。

Highの評価基準項目はConsistent resultsは非一貫性:複数の研究が同じ結果を出している、Well-designedは研究デザイン:ランダム化比較試験、非ランダム化比較試験、観察研究、など、Well-conductedはバイアスリスク;選択バイアス、実行バイアス、検出バイアス、症例減少バイアス、など、Representative primary care populationは非直接性、Effects on health outcomesは非直接性、The conclusion not to be strongly affected by future studiesは不精確性とそれぞれ関連した概念です。

効果推定値の確実性と正味の益の確実性は同じとは限りません。そのため、診療ガイドライン作成のためのコンピテンスとして効果推定値に対するエビデンスの評価ができるだけでは不十分といえます。

さて、推奨グレードを実際に臨床での判断にどのように用いるかについて、USPSTFはSuggestions for Practiceすなわち実際の適用に関する提言として、次のように述べています。Grade AとBは同じ文言で、Cは個別の状況に応じて選択された患者に適用するという内容になっています。Dはしないことを推奨し、Iはそれぞれの推奨のClinical considerationsをよく読むようにということです。

Grade A: Offer or provide this service.
Grade B: Offer or provide this service.
Grade C: Offer or provide this service for selected patients depending on individual circumstances.
Grade D: Discourage the use of this service.
Grade I: Read the clnical considerations section of USPSTF Recommendation Statement. If the service is offered, patients should understand the uncertainty about the balance of benefits and harms.

NCCN Evidence Blocks

NCCN National Comprehensive Cancer Networkの診療ガイドラインではEfficacy of Regimen/Agent、Safety of Regimen/Agent、Quality of Evidence、Consistency of Evidence、Affordability of Regimen/Agentの項目(measure)ESQCAについてそれぞれ1~5までの5段階評価を正方形のブロック(Evidence Blocks)を用いて表示しています。青の正方形の割合を見ることで、一目で評価ができるようになっています。

新薬が次々と出てくるような分野では、このEvidence Blocksが有用と考えられます。”Some patients will want an emerging therapy even with limited data; others will be most concerned about the exposed side effects of the treatment indicated in the safey column. Still others may be very sensitive to cost.”と解説にあります。エビデンスの確実性が高くなくても新しい治療を受けたい人がいる。もし、最も重要なアウトカムが生存/死亡という場合にはそう希望する人も多いと考えられます。

Modeling

実世界をとらえたり、分析したりするときは、より単純化されたモデルを作って、モデルで比較したり、モデル上でさまざまなデータを入れて結果を比べたりすることが行われます。また、われわれが実世界に働きかける場合も、モデルを通してそれを行っています。実世界ではあまりに多くの要素が相互作用して結果が出てくるので、より単純化して重要な要素だけを解析するしかないとも言えます。今後は、患者さんの全体験をビッグデータとして記録して、解析することが可能になるかもしれません。記録用のデバイス、記録方法、データ保存、データ解析法など開発が必要ですが。

さて、モデルを作ることをmodeling(米)、modelling(英)といいます。日本語ではモデル化あるいはモデル作成ということになります。

医療の分野で、診断的介入あるいは治療的介入の効果Effectivenessを調べる際は、介入の影響を受け変化するであろうその人に関する様々な要素を測定します。介入を受けて変化する要素は無数にあり、すべてを測定することはできないので、重要な要素に限定します。それはアウトカムOutcomeと呼ばれています。しかも、ランダム化比較試験では主要アウトカムはひとつに限定することが推奨されています(CONSORT The Consolidated Standards of Reporting Trials statement)。それは統計学な理由と、参加する患者さんの人数(サンプルサイズ)をできるだけ少なくするためです。それ以外は、副次アウトカムとして数個設定されるのが普通です。サンプルサイズは主要アウトカムに対する効果の推定値に基づいて計算されるので、副作用などの頻度の低い副次アウトカムはサンプルサイズが足りなくて検出されないことも多くなります。歴史的には、発売後に大勢の患者さんが使ってはじめて重大な副作用が起きることがわかって販売中止になったり、適用がより限定されたりしたことが起きています。

なお、患者さんが直接測定して報告するアウトカムのことはPatient-reported outcome (PRO)と呼ばれ、近年重要視されてきました。アメリカでは2009年にPatient-Centered Outcomes Research Institute (PICORI)が設置され、そのホームページには”Improving Outcomes Important to Patients. PCORI funds studies that can help patients and those who care for them make better-informed healthcare choices.”と書かれています。”患者さんにとって重要なアウトカムを改善する。患者さんと医療者がより良い情報を与えられたうえでの医療の選択ができるよう手助けする研究に研究費を助成する”と書かれています。

さて、益と害Benefits/Harmsの複数のアウトカムに及ぼす介入の効果の大きさと確実性に基づいて、全体としての益と害の大きさとバランス、正味の益を評価する際にさまざまなモデルが提唱されてきました(Mt-Isa S 2014, Puhan MA 2013,
Boyd CM 2012, Guo JJ 2010 などにまとめられています)。どのモデルを使う場合でも、重要なアウトカムを無視していないか慎重でなければなりません。取り上げたアウトカムだけで最善の介入を決めていいかどうかよく考える必要があります。また、未知のアウトカムが将来問題になることもありうることも認識しておく必要があります。

すべてのアウトカムに関して、ひとつの介入が優れていれば、価値観・好みは関係なく、最善の介入がどれかを決めることができます。トレードオフがある場合には、アウトカムに対する価値観と好みValues and preferencesがわからないと、評価ができません。益と害のバランスあるいは正味の益がわかっても、さらに、負担Burdensと費用Cost・資源Resourceが問題になってきます。負担は入院、手術を受けるといったことで、費用は金銭的な費用、資源は医療設備、人的リソース(専門性や医療技術などを含む)などです。

そして、最善の介入を決める際に用いるモデル自体にも不確実性が伴っていることを忘れてはいけません。