GRADEアプローチのエビデンスの確実性評価:3種類の文脈化

GRADEアプローチにおけるアウトカムごとのエビデンス総体のエビデンスの確実性の評価方法は、システマティックレビュー(SR)、医療技術評価(HTA)と診療ガイドライン(CPG)作成では、異なります。前2者は最小文脈化アプローチMinimally contextualized appproach、または、部分的文脈化のアプローチPartially contextualized approachを用い、CPGでは完全文脈化のアプローチFully contextualized approachを用います。最小文脈化、部分的文脈化のアプローチでは効果推定値が正しいことに対する確信の程度を決めること、完全文脈化では、各アウトカムに対する介入の効果推定値が推奨を支持する適切さに対する確信の程度を決めることが目的です(表1)。

表1.エビデンス総体のエビデンスの確実性評価と文脈化の程度。


エビデンスの確実性とは:GRADEはエビデンスの確実性を、真の効果が特定の閾値の片側あるいは効果量の選択された範囲にある確実性と定義した」(Schünemann HJ 2022)、あるいは、「GRADEワーキンググループは、個々のアウトカムに対するエビデンスの確実性をレーティングするとき、真の効果が特定の範囲にある、または、ある閾値の片側にあることに、我々がどれくらい確かだと思うかを我々はレーティングしているということを明確にしている」(Hultcrantz M 2017)とされています。

文脈化の程度と他のアウトカムの関連、大・中・小の閾値の設定、正味の益の算出、アウトカムの重要度(価値)の設定、確実性のレーティングの標的の関係を表2に示します。

表2. 文脈化の程度と各アプローチの特徴。

GRADEワーキンググループ(WG)は2017年にエビデンスの確実性の概念(costruct)について論文(Hultcrantz M 2017)を発表しました。その後のWGの議論を踏まえて、2021年の論文(Zeng L 2021)では、エビデンスの確実性評価の実際的なガイダンスについて述べています。そのガイダンスでは、エビデンスの確実性の評価者は、エビデンスの確実性の概念の何を評価するのかを明確にする必要があると述べており、それを確実性のレーティングの標的(the target of their certainty rating)と呼んでいます。

そして、確実性のレーティングの標的は、エビデンスの確実性評価の文脈化の程度によって異なり、最小文脈化のアプローチでは無効果あるいは効果ありの確実性、または、効果推定値が無効果を含むある範囲にある確実性が標的になります。部分的文脈化のアプローチでは閾値の片側にある確実性あるいは信頼区間が大・中・小の臨床的意味のある閾値と交差する数が標的になります。完全文脈化ではさらに、正味の益を明確にしたうえで、信頼区間の上限値、下限値でそれが反転するかどうかを見る(Hultcrantz M 2017)、あるいは、望ましくない効果の上限値の総和への影響を見る(Schünemann HJ 2022)ことになります。

完全文脈化のアプローチを用いる場合、前作業として部分的文脈化のアプローチによる各アウトカムに対する効果推定値の確実性の評価を行うことが勧められています。

大・中・小の閾値を設定する際には、絶対効果を用い、アウトカムの重要度を反映する必要があります。閾値はリスク差×アウトカムの重要度(効用値)をスケールとして用います。

図1.閾値の設定

効果推定値の95%信頼区間がこれら閾値といくつ交差するかによって、エビデンスの確実性をレートダウンします。1つの閾値と交差する場合は、1レベルレートダウン;2つの閾値と交差する場合は、2レベルレートダウン;3つの閾値と交差する場合は、3レベルレートダウンが原則です。

図2.閾値と信頼区間の関係とレートダウン。

効果推定値が大の閾値を超えるようなありそうもない大きな効果を示している場合、あるいは、わずかまたは小さな効果の場合に、Review Information Size(RIS)レビュー情報量を計算する必要があります。大・中・小の閾値に対する必要なRIS、すなわちその大きさの効果を証明に必要なサンプルサイズを計算し、その結果で、実際のサンプルサイズが•大きな効果の閾値より少ない ⇒ 3レベルレートダウン;•中等度の効果の閾値より少ない ⇒ 2レベルレートダウン;•小さな効果の閾値より少ない ⇒ 1レベルレートダウンすることが提案されています。ただし、効果推定値の95%信頼区間の大・中・小の閾値との交差と合わせて慎重に判断する必要があります。

OISは臨床的に意味のある効果推定値を証明するのに必要なサンプルサイズ。エビデンスの確実性の評価で、部分的文脈化あるいは完全文脈化アプローチを用いる場合は、大・中・小の閾値を設定する必要があり、それぞれに対する必要なサンプルサイズを計算するので、RISという用語を用いる。OIS: Optimal Information Size最適情報量; RIS: Review Information Sizeレビュー情報量

閾値の設定は困難な課題ですが、次のような情報を根拠とすることが提案されています:
•効用値と絶対効果から閾値を設定している研究を参照する。
•効用値に関する研究を参照する。
•閾値が用いられた診療ガイドラインを参照する。
•疾患専門家や意思決定に関与する利害関係者が何らかの情報(経験、文献情報)に基づいて、効用値を考えながら閾値を設定する。

また閾値を設定は、まずアウトカムの重要度を設定し、その後に行うべきとされています。以下の点に留意する必要があります:
•アウトカムの重要度をエビデンス評価の前に決めておく。
•アウトカムの重要度を決めてから閾値を設定する。
•アウトカムの重要度に関する新知見が得られたら閾値をアップデートする。
•アウトカムの重要度は少なくとも疾患に特異的であり、相対的な値なので、同じアウトカムがどのような疾患でも同じ価値を持つわけではない。また、介入により取り扱うべきアウトカムが異なることもあるので、同じ疾患でも、他のアウトカムの構成によって同じアウトカムでも異なる値を設定することがありうる。0~100(あるいは0~1.0)の値を設定する。

また連続変数アウトカムの場合の閾値の設定に関しては以下の提案がされています:
•大・中・小の閾値に関する経験的推定値がある場合、それを用いる。例:Chronic Respiratory Questionnaire 7ポイントスケールの場合、0.5, 1.0, 1.5; Visual Analogue Scaleの場合6, 10, 14
•Minimally Important Difference (MID)の推定値が得られる場合、それを小さい効果の閾値として用いる。
•標準化平均値差(SMD)を用いて、SMD 0.2, 0.5, 0.8に閾値を設定する。
•何らかの情報に基づく専門家の推定値。

#################################

Hultcrantz M 2017で述べられていた完全文脈化のアプローチのステップは以下の様になります:

1.絶対効果の大きさとアウトカムの重要性の積の総和として正味の益を計算する(Alper BS 2019)。
2.各アウトカムに対する絶対効果の上限値と下限値で正味の益が逆転するかを見る。(逆転の閾値は0または評価者が設定した値)。
3.逆転する場合は、そのアウトカムに対する効果の不精確性をレートダウンし、(他のエビデンスの確実性評価ドメインと合わせて)エビデンス総体のエビデンスの確実性をレートダウンする。

なお、連続変数アウトカムの場合はそのままでは正味の益の計算に含めることはできません。

#################################

Schünemann HJ 2022の論文で述べられている完全文脈化のアプローチのステップは以下の様になります:

0.  部分的文脈化アプローチで各アウトカムに対する効果推定値の不精確性の評価を行う。
1.益のアウトカムに対する効果推定値の95%信頼区間下限値に基づいてありうる最小の望ましい絶対効果量を特定する。
2.害のアウトカムに対する効果推定値の95%信頼区間上限値に基づいてありうる最大の望ましくない絶対効果量を特定する。
3.最小の望ましい効果を集約(aggregate)し、それに基づいて介入を推奨するのに許容しうる最大のありうる望ましくない効果の総和(overall)を決める(必要に応じて費用なども考慮する)。個々の望ましくないアウトカムに対する効果のありうる最大値に基づいて不精確性のレーティングを変更する必要があるかを決めるのにこの総和の閾値を考慮する。複数の望ましくない効果がある場合、これを各アウトカムについて個別に、あるいは集積した上で、行わなければならないことに留意する。
4.望ましくない効果の信頼区間が、許容しうる最大のありうる望ましくない効果の閾値と重なるかどうかを判定する。もし「はい」なら、完全文脈化アプローチの精確性のレーティングは変更されない。益と害のバランスが確実でないかもしれない、すなわち、明確な正味の望ましい健康効果がないため、ガイドライン委員会は通常、条件付推奨とする。
5.閾値が交差しない場合、不精確性に基づく不確実性は決定に影響を与えない可能性があり、正味の望ましい効果があるため、望ましい効果と望ましくない効果に対する不精確性の確実性を下げることは、推奨や決断のために必要ないであろう(これはまれであろう)。そして、総体のエビデンスの確実性が全体として中または高い場合、ガイドライン委員会は多くの場合、強い推奨とする。エビデンス全体の確実性が非常に低いか低い場合、たとえ正味で望ましい効果があったとしても、ガイドライン・パネルは通常、条件付き推奨とする。
注)例を挙げていないが、仮に、部分的に文脈化されたアプローチを用いて、どのアウトカムも不精確性で格下げが行われなかったとしても、すべての望ましいアウトカムまたはすべての望ましくないアウトカムの不確実性の累積が、望ましいアウトカムまたは望ましくないアウトカムの累積効果を不精確にする可能性がある。すべての望ましい結果または望ましくない結果を組み合わせた後の累積不確実性が非常に大きく、信頼区間が閾値を超えるような場合には、1つまたは複数の主要なアウトカムの不精確性を理由とした格下げが正当化される可能性がある。

なお、同論文には部分的文脈化のアプローチのステップも記述されていますので、必要に応じて、参照してください。

#####################################

完全文脈化のアプローチは複雑で、実行も容易とは思えません。各アウトカムに対する効果推定値の95%信頼区間の幅を評価する際に、大・中・小の区切りを閾値として設定するだけの様にも見えますし、大・中・小の閾値の設定はアウトカムの重要度の設定と同じように、個人によって差が出てくるように思えます。また、もともと絶対効果が小さい、あるいは、重要度が低いアウトカムに対する効果推定値の不確実性は、意思決定あるいは推奨に影響しない可能性が高く、エビデンスの確実性の厳密な評価をする意義が低くなると思います。

文献:
Hultcrantz M, et al: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

Alper BS, et al: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. doi: 10.1007/s11882-011-0185-8 PMID: 31167868

Zeng L, et al: GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. J Clin Epidemiol 2021;137:163-175. doi: 10.1016/j.jclinepi.2021.03.026 PMID: 33857619

Schünemann HJ, et al: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

Cochrane Risk of Bias Tool ver.2.0と評価用ウェブツール

ランダム化比較試験のバイアスリスクの評価ツールとしてCochrane Risk of Bias Tool ver.2.0が2019年8月に最終版が完成し、広く使われるようになってきました (Current versionへの Link)。評価ドメインが5つに限定され、概念は同じですが、名称が解説的なものに変わりました。シグナリングクエスチョンに答えてゆくことで、アルゴリズムに従って、評価がLow, Some concerns, Highのいずれかに決まる仕組みになっています。(Version 1.1ではLow, Unclear, High, でした。)アルゴリズムによる自動判定のツールも含んだExcel macroも公開されています。なお、アルゴリズムによる判定と評価者の判定が違う場合は、評価者の判定を優先します。また、クラスターランダム化比較試験、クロスオーバー試験用のツールは別になっています。

シグナリングクエスチョンに答えていけば、判定ができるようになっていますが、アルゴリズムのどこに合致するかを見ないといけませんし、初心者にはシグナリングクエスチョンそのものの意味が分からない場合もあると思います。従来の方法と比べると、判定の手順はかなり労力を要するものになっていると思います。特にアルゴリズムは記憶できる範囲を超える量なので、RoB 2ガイダンスドキュメントを参照しながら判定する必要があり、時間もかかります。

その様な作業を容易にするために、シグナリングクエスチョンの行をクリックすると表示される解説を見ながらシグナリングクエスチョンに答えていくことで、アルゴリズムに従い、自動的に判定するWeb toolを作成しました。(プログラミングはJavaScriptを用いています)。Cochraneのウェブサイトの紹介、RoB 2のガイダンスドキュメントの紹介、RoB 2ウェブツールの紹介、評価シートとの連携、評価シートからR+metafor, forestplotによるメタアナリシスの実行まで解説した動画(11分13秒)を作成しました。

メタアナリシスをすべきかどうかそれが問題だ

AHRQ Agency for Healthcare Research and Qualityから2018年にQuantitative Synthesis-An Updateというレポートが出されています。(2020年に訂正あり)。執筆者は12名、ピアレビューは15名が担当しています。

メタアナリシスをしようと思った時に、各研究間に異質性がある場合、それらを単にプールして統合値を求めることに当然疑問を抱くと思います。メタアナリシスをすべきかどうかそれが問題だという時に役に立つ情報です。

5章から構成され、以下のテーマが取り上げられています。1. 試験結合の決定、2. エフェクトサイズデータの使用の最適化、3. 研究結合のための統計学的モデルの選択、4. 統計学的異質性の定量化・検定・探索、5. ネットワークメタアナリシス。

今回は、第1章 試験結合の決定の概要を紹介します。メタアナリシスをすべきか決めるためのフローチャートが提示されているので、スライドと解説としてまとめてみました。最後にQuizが2つあります。Link to ”Pooling decision tree”

メタアナリシスをしようと思った時に出てくるさまざまな疑問に答えられる有用な情報になると思います。これに沿って考えることは役に立つと思います。

もう一つ重要なポイントは、この報告書をWorking Groupがどのように作成したかについてです。かれらは、「14カ月にわたって、テレカンファレンスで、①プロジェクトの方向性、スコープ、②仕事の分担・協働、③データの収集・分析について議論し、④ドラフトについて議論し編集を行った。最初の会議では、ドラフトのアウトライン、タイムラインについて議論し、合意形成の方法について同意を得た。」

「大グループは2週おきにテレカンファレンス、章別に小グループに分かれ、それとは別に作業の調整をし、文献レビューの結果について議論し、それぞれの章のドラフトを書いた。後で、全章をひとつにまとめ、2週おきに議論した。」

「文献検索専門家が章ごとの文献検索を行った。それらを全章に渡ってまとめた。16,000の文献を含む、AHRQ SRC Methods Libraryを用いた。追加の文献は、最近のSR、レビュー、エディトリアル、エキスパートのレビューから探した。」

要点は:
・元になる文献のレビューの段階から、チームで議論をしている。
・合意形成の手順についてあらかじめ議論し、それを共有した。
・2週おきの議論を繰り返した。

これほどのエンゲージメントは大変だろうと思いますが、チームワークで作業をする場合これくらいする必要があるだろうと思います。このような手順であれば、論文の解釈についても議論され、参加者の理解が深まり、共有されることになるでしょう。誰か分かっていそうな人が書いた原稿を誰か別の人が査読してOKなら終了というのとは全く違うと思います。

Bias – DAG Directed Acyclic Graphを用いる分析

バイアスとは

バイアスは「研究結果の系統的な偏り、あるいは、推定の真実からの系統的な偏り」と定義されています。系統的とは? 偶然による偏りに対して、偶然起きる偏りではないので、系統的な偏りと言います。系統的systematic vs 偶然random という考え方をしているということです。偶然による偏りは、統計学的に説明可能でサンプルサイズが小さいほど大きくなります。バイアスによる偏りは経験的empiricalなデータは限られており、バイアス効果の大きさと方向(過大評価か過小評価か)については評価者が推定せざるをえないことがほとんどです。

実際に得られた結果の効果推定値および信頼区間Confidence intervalから、偶然による偏りだけなのか、バイアスによる偏りなのか、両方が混ざっているのかを見分けるのは難しいです。なお、頻度論派Frequentistの95%信頼区間は同じことを繰り返したら95%の場合はその範囲に本当の値が含まれるということを意味しています。5%の場合は、その範囲外になります。ベイジアンBayesianのアプローチであれば、95%確信区間Credicble intervalは真の値を95%の確率で含む範囲です。

さて、バイアスは多数存在しますが、バイアスの原因となる要素がその研究にあるかどうかを判断することは可能です。それがその研究にあれば、その結果あるいは効果推定値はバイアスのため、偏っている可能性が高くなります。そのようなアプローチが必要になります。

真の値を推定することは、もしバイアス効果の大きさが推定できれば、それによって調整することで、可能になります(Quantitative bias analysis)。例えば、得られた結果のリスク比RR=0.8で、バイアスの効果がRR=0.9であれば、真の効果推定値はRR = 0.8/0.9 = 0.89 =exp[ln(0.8)-ln(0.9)] = exp[-0.223-(-0.105)] = exp(-0.118)です。結果RRの分散とバイアス効果のRRの分散を合計するとバイアスで調整した真の効果の推定値の分散はそれらの合計になります。バイアス効果のRRの分散はレビュアが推定値を設定する必要があります(Turner RM 2009)。*ln 自然対数;exp Exponential (Excelの関数の表示ln(), exp()と同じです, なお、Rでは自然対数はlog())。

また、バイアスの効果の大きさがどれ位あれば望ましい結果が望ましくない結果に反転するかも知ることができます(Bias adjustment thresholds analysis)(Phillippo DM 2018)。しかしながら、そこまで分析を行うケースは少なく、Cochrane risk of bias toolのように、大きなバイアス(あるいは”実質的なバイアス” material bias)のリスク=可能性がどれくらいあるかを評価することが一般的です。

バイアスは交絡バイアス、選択バイアス、情報バイアスの3つに分類されるのが一般的です(Lash TL 2021)。

図 バイアスの3つのタイプとDAG。
矢印の始点の方が原因で終点の方が結果を示します。IはIntervention介入またはEと書いてExposure要因暴露、CはCommon cause共通原因=Confounder交絡因子、OはOutcomeアウトカムを表します。OiはIntermediate outcome中間アウトカム、OeはEndpointエンドポイントです。I*は測定された介入、O*は測定されたアウトカムを表します。Uは測定誤差を引き起こす因子で、多くの場合不明です。
共通原因は交絡バイアス、共通効果は選択バイアス、系統的測定誤差は情報バイアスに対応します。
I←C→O; I→S→Oi←Oeと記述しても共通原因、共通効果であるこをと表現できます。

バイアスの効果を分析する際に、有向非巡回グラフDirected Acyclic Graph (DAG)が用いられることがあります。DAGは因果関係図Causal Diagramと呼ばれることもあります。それぞれの変数がバイアスになりうるかを検討するのに有力なツールです。図には、Luijendijk HJ 2020の論文に基づいて、汎用性のあるDAGの3つのバイアスのタイプについて示してあります。

共通効果→選択バイアス

バイアスの議論の際に、よく引用されるBerkson’s biasは選択バイアスとして知られていますが、共通効果のDAGを使って説明されます(Westreich D 2012)。例えば、クリニック受診患者を対象として糖尿病と認知症の関係を分析した場合、受診の原因が糖尿病の場合もあり認知症の場合もあります。クリニック受診が共通効果になります。クリニックを受診しない患者は選択せず、クリニック受診患者だけを選択して糖尿病と認知症の関係を分析するとバイアスが生じます。このようなバイアスは、前向き研究でも後ろ向き研究でも、観察研究でもランダム化比較試験でも起きる可能性があります。

共通効果で条件付けされるすなわちconditioned on (分類される)ある層だけを対象として選択したり、共通効果で調整するとバイアスが生じます。すなわち、図に示す変数Sに基づく層のひとつを分析する、あるいは変数SでIとOeの関係を調整した分析を行うとバイアスが生じます。このようなバイアスの結果は過大評価になる場合も、過小評価になる場合もあり、例えば、上記の例だと糖尿病は認知症のリスクを高めることはないという結果が得られる可能性があります。

SがOiの影響をうけて変動する結果生じるバイアスとして、脱落によるバイアス、症例減少バイアスAttrition biasがあります。その場合、介入群の方で脱落がより多いというような、Iからの影響も受けます。

コンシールメントがないためにランダム化が歪んで起きるバイアスも共通効果で説明できるはずです。皆さんも考えてみて下さい。

共通効果はCollider 合流因子とも呼ばれ、共通効果によるバイアスは選択バイアスに相当します。選択バイアスをCollider biasと呼ぶこともあります。

共通原因→交絡バイアス

共通原因は交絡因子に相当し、介入とアウトカムの両方に関係がある因子です。因果関係はI←C→Oの方向です。共通原因=交絡因子の影響によって介入が変動し、アウトカムも変動する場合に、介入のアウトカムに対する効果を単純に分析すると交絡バイアスが生じます。交絡バイアスは分析の時点で層別分析や多変量回帰分析などで調整することが可能ですが調整の程度はさまざまです。

例えば、盲検化がされていないため“別の治療を受ける”という“治療企図からの乖離”が起きると、対象者の介入の内容を変え、治療の効果=アウトカムを変えてしまうので、交絡因子になります。共通原因により生じるバイアスは交絡バイアスに相当します。

系統的測定誤差→情報バイアス

系統的測定誤差あるいは誤分類はさまざまな原因で起きます。図に示すUは、未知の因子ですが、それが影響して測定誤差が生じた介入がI*、アウトカムがO*です。測定誤差の原因がIにある場合も(赤い矢印)、Oにある場合も(緑の矢印)あります。

例えば、盲検化がされていないために、アウトカム測定者が患者が受けている治療を知ることができるため、介入に有利な測定結果を出してしまい、過大評価の結果が得られた場合、系統的測定誤差の赤の矢印の因果関係が作動したための情報バイアスの一例になります。このようなバイアスは介入が新しい治療法でアウトカム測定者がより高い効果を期待しているような場合に起き得ます。このようなバイアスは検出バイアスに相当します。

矢印の始点の方が原因で終点の方が結果を示します。IはIntervention介入またはEと書いてExposure要因暴露、CはCommon cause共通原因=Confounder交絡因子、OはOutcomeアウトカムを表します。OiはIntermediate outcome中間アウトカム、OeはEndpointエンドポイントです。I*は測定された介入、O*は測定されたアウトカムを表します。Uは測定誤差を引き起こす因子で、多くの場合不明です。

DAGの各変数

これら、I, C, O, Oi, Oe, I*, O*, Uは変数を表し、例えば、I=1は介入あり、I=0は介入なし、のような値が設定され、例えばO=1治癒、O=0非治癒とすると、条件付き確率の式を用いてP(O=1|I=1)と記述すると、Iが介入ありの場合のOが治癒となる確率を表し、介入群の治癒確率を表すことになります。

図中ボックスで囲んであるのが実際の分析対象となる変数です。Sは選択を表す変数ですが、Sのボックスの意味は、介入と中間アウトカムに基づく対象者の除外が研究デザインあるいは分析のしかたで起きることを示しています。Sの値が0なら対照、1なら介入という設定や、0は非脱落、1は脱落、0は報告する、1は報告しないというような値を設定できます。

左下の共通原因のDAGの青い点線はI→C→Oという本来ないはずの因果関係がBack door pathバックドア経路として開かれるということを示しています。

系統的測定誤差のDAGは必ずしも矢印のすべてが同時に起きる事象ということではなく、どの矢印が有効かは、分析対象の研究によって異なってきます。

観察研究の場合は、IをE要因曝露に置き換えます。

バイアスは数多く存在し、観察研究はバイアスの影響を受けやすいですが、ランダム化比較試験もバイアスに無縁ではなく、多くのバイアスの影響を受ける可能性があります。

ランダム化比較試験のバイアス評価について、特にCochrane risk of bias tool ver. 2.0 RoB 2)を中心にスライドと解説の資料を作成しました。RoB 2を用いたランダム化比較試験のエビデンス評価の作業をする際に参考にしてください → Link

文献:
Turner RM, Spiegelhalter DJ, Smith GC, Thompson SG: Bias modelling in evidence synthesis. J R Stat Soc Ser A Stat Soc 2009;172:21-47. PMID: 19381328 PubMed

Phillippo DM, Dias S, Ades AE, Didelez V, Welton NJ: Sensitivity of treatment recommendations to bias in network meta-analysis. J R Stat Soc Ser A Stat Soc 2018;181:843-867. PMID: 30449954 PubMed

Lash TL, VanderWeele TJ, Haneuse S, Rothman KJ: Modern Epidemiology (FORTH EDITION). 2021,  Wolters Kluwer, PA, USA. Amazon

Luijendijk HJ, Page MJ, Burger H, Koolman X. Assessing risk of bias: a proposal for a unified framework for observational studies and randomized trials. BMC Med Res Methodol. 2020 Sep 23;20(1):237. doi: 10.1186/s12874-020-01115-7. PubMed

Westreich D: Berkson’s bias, selection bias, and missing data. Epidemiology 2012;23:159-64. doi: 10.1097/EDE.0b013e31823b6296 PMID: 22081062 PubMed

Hernán MA, Monge S: Selection bias due to conditioning on a collider. BMJ 2023;381:1135. doi: 10.1097/EDE.0000000000000031 PMID: 37286200 PubMed

バイアスに関する論文はたくさんありますが、役立ちそうな文献を少しあげておきます:
Hernán MA, Monge S: Selection bias due to conditioning on a collider. BMJ 2023;381:1135. doi: 10.1136/bmj.p1135 PMID: 37286200 PubMed

Sjölander A: Selection Bias with Outcome-dependent Sampling. Epidemiology 2023;34:186-191. doi: 10.1097/EDE.0000000000001567 PMID: 36722800 PubMed

Lu H, Cole SR, Howe CJ, Westreich D: Toward a Clearer Definition of Selection Bias When Estimating Causal Effects. Epidemiology 2022;33:699-706. doi: 10.1097/EDE.0000000000001516 PMID: 35700187 PubMed