USPSTFの推奨Grade

U.S. Preventive Services Task Force (USPSTF)米国予防医療専門委員会は癌検診など予防医療の分野で臨床的予防サービスに関するエビデンスに基づく推奨を提言している全米の予防医学とEBMの専門家のボランティアの独立したパネルです。たとえば、2016年の乳癌スクリーニング大腸癌スクリーニング、2018年の前立腺癌スクリーニングに関する推奨はよく知られていると思います。

GRADEアプローチでは、推奨は強い・弱いの2段階で、する・しないの2方向ですが、その意味、特に弱い推奨の意味を考えるのに、正味の益の確実性の概念と、USPSTFの推奨グレードの分類を理解することは重要だと思います。

USPSTFの推奨グレードはA, B, C, D, Iの5分類です。推奨グレードは正味の益Net benefitの大きさとその確実性Certaintyによって決められています。

たとえば、Grade A推奨度Aは次のように定義されています:” The USPSTF recommends the service. There is high certainty that the net benefit is substantial. ” すなわち、正味の益が十分大きいことに高い確実性がある。USPSTFはその医療サービスを推奨する、と。

そして、正味の益Net benefitCertainy確実性は、” The USPSTF defines certainty as “likelihood that the USPSTF assessment of the net benefit of a preventive service is correct.” すなわち、予防医療サービスの正味の益に関するUSPSTFの評価が正しい可能性を確実性Certaintyと定義する、と。

そして、正味の益は”The net benefit is defined as benefit minus harm of the preventive service as implemented in a general, primary care population. ” すなわち、その予防医療サービスが一般のプライマリケア集団で実行されるときの益ひく害が正味の益と定義される、と。ここでは益から害を減じた(引き算した)値を正味の益Net benefitと定義しています。2016年にAnnals of Internal MedicineにDicision Modelsに関する論文を発表しています。

Owens DK, Whitlock EP, Henderson J, Pignone MP, Krist AH, Bibbins-Domingo K, Curry SJ, Davidson KW, Ebell M, Gillman MW, Grossman DC, Kemper AR, Kurth AE, Maciosek M, Siu AL, LeFevre ML, U.S. Preventive Services Task Force*: Use of Decision Models in the Development of Evidence-Based Clinical Preventive Services Recommendations: Methods of the U.S. Preventive Services Task Force. Ann Intern Med 2016;165:501-508. PMID: 27379742

そして、確実性のレベルについては、”The USPSTF assigns a certainty level based on the nature of the overall evidence available to assess the net benefit of a preventive service. ” すなわち、”予防医療サービスの正味の益を評価するために得られたエビデンス全体の性質に基づいてUSPSTFは確実性のレベルを設定する”、と。

USPSTFは、”正味の益の確実性”という考え方を、2007年から取り入れています。そして、Grade C推奨度Cの定義は2007年に一度変更し、さらに2012年に変更して以下の記述になっています。以下にGrade AからIまでの現在の定義を示します。正味の益の大きさに関する記述の部分を太字斜体、その確実性に関する記述の部分を太字に変えてあります。

Grade A: The USPSTF recommends the service. There is high certainty that the net benefit is substantial.

Grade B: The USPSTF recommends the service. There is high certainty that the net benefit is moderate or there is moderate certainty that the net benefit is moderate to substantial.

Grade C: The USPSTF recommends selectively offering or providing this service to individual patients based on professional judgment and patient preferences. There is at least moderate certainty that the net benefit is small.

Grade D: The USPSTF recommends against the service. There is moderate or high certainty that the service has no net benefit or that the harms outweigh the benefits.

Grade I : The USPSTF concludes that the current evidence is insufficient to assess the balance of benefits and harms of the service. Evidence is lacking, of poor quality, or conflicting, and the balance of benefits and harms cannot be determined.

Grade Cは、”専門家の判断と患者の好みPreferencesに基づいて、選択的に個人個人の患者に提供することを推奨する。正味の益が小さいことに少なくとも中等度の確実性がある”と定義されています。さらに、” Grade C recommendations are particularly sensitive to patient values and circumstances. Determining whether or not the service should be offered or provided to an individual patient will typically require an informed conversation between the clinician and patient. ” すなわち、Grade Cの推奨は特に患者の価値観と状況に左右される。その医療サービスを個人個人の患者に提供すべきかどうかを決めるには臨床家と患者の間で情報を与えられたうえでの話し合いが特に必要になる”と述べられています。

また、Grade Cの場合、集団のレベルで、益と害のバランスが拮抗している、そして正味の益の程度が小さいということはいままでと変わらない、とも述べています。
Despite these revisions, the essence of the C recommendation has remained consistent: at the population level, the balance of benefits and harms is very close, and the magnitude of net benefit is small.

すなわち、集団で見ると正味の益が小さい、すなわち益を得る人の割合が小さい場合でも、個人レベルで見ると益が大きい人たちがいるので、個別の判断が必要だということでしょう。今後のPrecision Meicine 精密医療の進歩によって、また推奨の分類が変わる可能性もあるかもしれません。

USPSTFはLevels of Certainty Regarding Net Benefitすなわち正味の益に関する確実性のレベルについて、以下の様にHigh, Moderate, Lowの3段階に分類しています。

High:
The available evidence usually includes consistent results from well-designed, well-conducted studies in representative primary care populations. These studies assess the effects of the preventive service on health outcomes. This conclusion is therefore unlikely to be strongly affected by the results of future studies.

Moderate:
Evidence is sufficient to determine effects on health outcomes, but the strength of the evidence is limited by the number, quality, or consistency of the individual studies, generalizability to routine practice, or indirect nature of the evidence on health outcomes. The available evidence is sufficient to determine the effects of the preventive service on health outcomes, but confidence in the estimate is constrained by such factors as:

・The number, size, or quality of individual studies.
・Inconsistency of findings across individual studies.
・Limited generalizability of findings to routine primary care practice.
・Lack of coherence in the chain of evidence.

As more information becomes available, the magnitude or direction of the observed effect could change, and this change may be large enough to alter the conclusion.

Low:
Evidence is insufficient to assess the effects on health outcomes because of limited number or power of studies, important flaws in their design or conduct, gaps in the chain of evidence, or lack of information on important health outcomes.

The available evidence is insufficient to assess effects on health outcomes. Evidence is insufficient because of:
・ The limited number or size of studies.
・ Important flaws in study design or methods.
・ Inconsistency of findings across individual studies.
・ Gaps in the chain of evidence.
・ Findings not generalizable to routine primary care practice.
・ Lack of information on important health outcomes.

More information may allow estimation of effects on health outcomes.

ここで言う確実性の分類の基準では、効果Effectあるいは効果推定値Effect estimateについて言及しているだけで、益と害については言及していません。2007年以前のエビデンスの質Quality of Evidenceの分類ではGood, Fair, Poorとなっていましたが、基本的には同じと考えられます。

Highの評価基準項目はConsistent resultsは非一貫性:複数の研究が同じ結果を出している、Well-designedは研究デザイン:ランダム化比較試験、非ランダム化比較試験、観察研究、など、Well-conductedはバイアスリスク;選択バイアス、実行バイアス、検出バイアス、症例減少バイアス、など、Representative primary care populationは非直接性、Effects on health outcomesは非直接性、The conclusion not to be strongly affected by future studiesは不精確性とそれぞれ関連した概念です。

効果推定値の確実性と正味の益の確実性は同じとは限りません。そのため、診療ガイドライン作成のためのコンピテンスとして効果推定値に対するエビデンスの評価ができるだけでは不十分といえます。

さて、推奨グレードを実際に臨床での判断にどのように用いるかについて、USPSTFはSuggestions for Practiceすなわち実際の適用に関する提言として、次のように述べています。Grade AとBは同じ文言で、Cは個別の状況に応じて選択された患者に適用するという内容になっています。Dはしないことを推奨し、Iはそれぞれの推奨のClinical considerationsをよく読むようにということです。

Grade A: Offer or provide this service.
Grade B: Offer or provide this service.
Grade C: Offer or provide this service for selected patients depending on individual circumstances.
Grade D: Discourage the use of this service.
Grade I: Read the clnical considerations section of USPSTF Recommendation Statement. If the service is offered, patients should understand the uncertainty about the balance of benefits and harms.

バイアスリスクのドメイン名

Cochrane Handbook for Systematic Reviews of InterventionsはVersion 6.0が2019年中ごろに完成予定とされている。それに先立ち、A revised tool to assess risk of bias in randomized trials (RoB 2)がindividually-randomized, parallel-group trialsに対するツールとして2018年10月に最終版が発表された。RoB 2 toolと非ランダム化比較試験のバイアスリスク評価ツールであるROBINS-I toolに関する情報は Cochrane Collaborationのriskofbias.info で得られる。ROBINS-Iは Risk Of Bias In Non-randomised Studies – of Interventionsのことである。

また、米AHRQも2017年12月13日に Assessing the Risk of Bias in Systematic Reviews of Health Care Interventions. を発表し、Cochrane RoB 2 toolとROBINS-Iを統合したようなバイアス評価法を発表している。この報告書のTable 3. Description of risk-of-bias categories and study design-specific assessment criteria for randomized and nonrandomized studies of interventions (adapted from ROBINS-I)にバイアスリスクのドメインと適用すべき研究デザインがまとめられている。

研究デザインはRCTs、Nonrandomized studies、Case-controlsの3つ、バイアスリスクのドメインはRCT用に5つ、それ以外に対して2つに分類されている。

Bias arising in the randomization process or due to confounding
Bias due to departures from intended interventions
Bias in measurement of outcomes
Bias from missing data
Bias in reporting results selectively
+
Bias in selecting participants into the study
Bias in classifying interventions

従来の名称は、それぞれSelection bias選択バイアス、Performance bias実行バイアス、Detection bias検出バイアス、Attrition bias症例減少バイアス、Selective outcome reporting選択的アウトカム報告バイアスであるが、概念は同じである。

一方CochraneのRoB 2およびROBINS-IはAHRQとほとんど同じであるが、言葉遣いが若干異なっている。また、それぞれのドメインの評価のためのSignalling questionsが用意されていて、それらにYes/Probably yes/Probably no/No/No informationまたはNot applicableで答えて結果が得られるように構成されている。

RoB 2:
Bias arising from the randomization process
Bias due to deviations from intended interventions
Bias due to missing outcome data
Bias in measurement of the outcome
Bias in selection of the reported result

ROBINS-I:
Pre-intervention
    Bias due to confounding
    Bias in selection of participants into the study
At intervention
    Bias in classsification of interventions
Post-intervention
    Bias due to deviations from intended interventions
    Bias due to missing data
    Bias in measurement of outcomes
    Bias in selection of the reported result

Post-interventioの4ドメインはランダム化比較試験と同じである。すなわち、”選択バイアス”に該当するバイアスのドメインがランダム化比較試験と非ランダム化比較試験で異なるが、それ以外は共通の概念を有するドメインである。

AHRQの報告書ではDirection and Magnitude of Biasに関して次のように記述されている:
“In rating risk of bias, reviewers should judge (either implicitly or explicitly) both the direction and magnitude of possible bias. Regarding direction, reviewers should be careful not to assume that all study biases result in overestimation of effect sizes. As defined earlier, bias is any mis-estimation of an effect size, and both underestimations and overestimations are problematic for decision makers.  ” バイアスリスクのレーティングをする際は、可能性のあるバイアスの方向と大きさの両方を判定すべきである(暗にあるいは明示的に)。方向に関しては、すべての研究のバイアスが効果サイズの過大評価の結果をもたらすとみなさないように注意すべきである。さらにバイアスとは効果サイズのどのようなものであれ誤った推定であり、過大評価も過小評価もどちらも意思決定にとって問題である“と述べている。

一方でCochrane RoB 2 toolでは、The tool includes optional judgements of the direction of the bias for each domain and overall. (中略)If review authors do not have a clear rationale for judging the likely direction of the bias, they should not guess it.と、バイアス効果の方向の評価はオプショナルとなっている。さらに、Cochrane RoB 2 toolでは、Risk of biasは”実質的バイアスのリスク”であり、“Risk of bias” is to be interpreted as “risk of material bias”、と述べられている。そして、”That is, concerns should be expressed only about issues that are likely to affect the ability to draw reliable conclusions from the study.””その研究から信頼できる結論を引き出すことに影響しそうな問題についてのみ懸念が表明されるべきである”としている。

AHRQは介入の効果を比較するランダム化比較試験と観察研究の両方に適用できる共通の枠組みを目指したアプローチとして開発した考えられる。すなわちComparative Effectiveness Research (CER)比較効果研究を対象としている。

いずれも個々の研究の評価の段階で用いられるものである。

SR, DA, CEA, CPG, SDM

SR Systematic Reviewシステマティックレビュー-今までの研究成果をまとめ、効果の大きさ・確実性を評価する。

DA Decision Analysis決断分析-評価基準項目の重要性と効果の大きさ・確実性により、どの選択肢が正味の益が大きいか決める。

CEA Cost-Effectiveness Analysis費用効果分析-正味の益は費用に見合うかを解析する。

CPG Clinical Practice Guideline診療ガイドライン-最善の選択肢を推奨する。

SDM Shared Decision Making協働意思決定-
患者さん・介護者の価値観・好みに基づき医師からの情報を得て協働で最善の決断に到達する。