観察研究のバイアスリスクの評価については、CochraneはROBINS-I Risk of bias in non-randomized studies of interventionsを2016年に公開しています。
URL: https://methods.cochrane.org/methods-cochrane/robins-i-tool
ROBINS-Iは介入の効果を解析する目的で行われた非ランダム化比較試験、コホート研究、症例対照研究を主な対象としています。
一方で、GRADE Working Groupは観察研究のバイアスリスクの評価法については、確定的な方法論は提示しておらず、ROBINS-Iとの相違点を指摘した論文を発表しています。対象とする観察研究の研究デザインの範囲についても相違があります。GRADE Working Groupは症例報告も含め、すべての臨床研究を対象として考えています。
ROBINS-Iは理想的なランダム化比較試験を想定し、それと評価対象の研究を比較しながら、エビデンスの確実性をダウングレードしていく方法をとっています。
観察研究の場合の個別研究の評価ドメインとして、Mindsではランダム化比較試験の場合と同じドメインを設定しています。評価項目は、“比較される群間の背景因子の差”、“ケアの差”、“不適切なアウトカム測定”、“不完全なフォローアップ”、“不十分な交絡の調整”、“その他のバイアス”です。
“比較される群間の背景因子の差”とは、交絡因子に相当します。すなわち、どの治療を受けるかということと=要因曝露とアウトカムの両方と関連がある因子があれば、その因子は比較される群間で差があるはずで、背景因子の差は交絡の可能性を示すことになります。
Mindsの評価項目とROBINS-Iの評価項目は呼び方は異なっていても、それぞれ対応していることがわかります。ただし、ROBINS-Iにある、“報告結果の選択におけるバイアス”すなわち選択的アウトカム報告と“介入の分類におけるバイアス”については、その他のバイアスに含める点が異なります。
診断精度研究Diagnostic Test Accuracy (DTA)studiesのバイアス評価については、QUADAS-2が広く用いられており、MindsではQUADAS-2(Quality Assessment tool for Diagnostic Accuracy Studies-2)に基づいた評価ドメインと評価項目を設定しています。
診断精度研究では感度・特異度の値について統合値がメタアナリシスの手法で算出されます。二変量モデルBivariate modelを用いた、Hierarchical Receiver Operating Characteristic Analysisが行われます。
QUADAS-2
URL: http://www.bristol.ac.uk/population-health-sciences/projects/quadas/quadas-2/
Minds 特別寄稿5 診断に関する診療ガイドライン(CPG)の作成
URL: https://minds.jcqhc.or.jp/s/guidance_special_articles5_1
これは、Cochraneのウェブサイトで提供されているExcelマクロのツールです。論文として、コクランのシステマティックレビューを作成することが目的なので、構成が非常に詳細で、使用に時間がかかります。
Excel tool to implement RoB 2: https://drive.google.com/file/d/1uwAVr-wKE3elEzcsVOBGLzJOVhbpf321/view
さて、非直接性はクリニカルクエスチョンのPICOと研究のPICOのずれによって生じる不確実性を表すドメインです。
非直接性があると、効果推定値に対して、真の値から偏りを生じ、非直接性はバイアスと同じ効果を持ちます。したがって、外的バイアスExternal biasと呼ぶ研究者もいます。また、適用可能性Applicability、外的妥当性External validity、一般化可能性Generalizabilityと同じ意味で用いられますが、適用可能性は個別患者で判断が必要になるので、AHRQは非直接性を適用可能性と分離する考えを採用しています。
わが国で作成する診療ガイドラインの対象は日本人なので、研究が欧米で行われていう研究の場合、人種差が問題になる疾患があります。また、投薬の用量が異なることもあります。同じ疾患でも医療事情の差で、病期や重症度が異なる場合もあります。これらは非直接性として評価されます。
バイアスリスクと非直接性は個別の研究について評価を行う必要があります。