Six persistent research misconceptions

Modern Epidemiology*の著者の一人である、Rothman KJは2014年に”研究における持続する6つの誤解”というタイトルの論文を発表しています(Rothman KJ: Six persistent research misconceptions. J Gen Intern Med 2014;29:1060-4. doi: 10.1007/s11606-013-2755-z PMID: 24452418

以下にそれを紹介します。ここに書いたことは短いまとめなので、これだけを読むと、さらに誤解をする人がいるかもしれません。原文をじっくり読んでいただきたいと思います。

誤解1. 研究デザインには階層があり、ランダム化比較試験が最も妥当性が高く、次にコホート研究が続き、症例対照研究は最も信頼性が低い。  

深く考えずに、高い妥当性を研究デザインの階層に帰するのは間違いである。

「研究デザインのみに基づいて結果の妥当性を判定することは、すべきではないという意味であって、研究デザインを明確にすることが不要であるという意味ではない。ランダム化比較試験であっても、バイアスの大きな研究の妥当性は低くなることに異論はないであろう。」

 誤解2. 研究から妥当性の高い一般化を行うために必須の要素は、研究対象者が標的集団の代表的サンプルで構成されていることである。

  科学的な一般化generalizationと統計学的外挿extrapolationは異なる。科学的一般化は自然現象について正しい声明を作るプロセスである。

「例えば、動物実験では、単一種を用いて、要因曝露や治療の効果をとらえやすくできる。ヒトを対象にした研究でも、効果を証明するために、対象者が限定された研究の結果でも、共変量を調整したうえで異なる集団に一般化したり、個人に適用する場合には、価値観による調整も行ったうえで、結果を適用することは可能である。そのさいに、数理統計学的モデルは手助けしてくれるが、必ずしも絶対的な基準とはならない。」

誤解3. もし回帰モデルで、2つの因子の積が統計学的に有意でなければ、これらの因子の間に生物学的な相互作用はない。

  統計学的交互作用と生物学的相互作用は異なる。生物学的相互作用は2つまたはそれ以上の原因が同じメカニズムに作用し、相互に依存関係がある効果を持つことである。2つの原因となる因子が同時に作用した場合、個別の作用の合計とは異なる効果になる場合、生物学的相互作用がある。生物学的相互作用は必ずしも統計学的交互作用としてとらえられないこともあり、用いられるモデルや測定尺度の影響を受ける。 

誤解4. 連続変数を分類するとき、分類のカットポイントに分布の4分位あるいは5分位のようなパーセントによる境界を用いることは妥当な方法である。

  ひとつには、パーセンタイルによる境界値は生物学的な意義のある変化が起きる値とは異なり、二つ目には、パーセンタイルに基づく境界値は研究間で異なるので、必ずしも妥当な方法ではない。  

誤解5. 常に、多重比較で調整されたP値または信頼区間を報告すべきである。

  多重比較のType I errorを減らすための調整はType II errorの増加を伴い、本当は差があるのに、差がないという結論を出す可能性が高くなる。生物学的データを解析する場合、すべてがランダムな値であるという前提よりも何らかの差があることが前提の場合が多い。機械的に多重性の調整を適用する前に、事前情報から事前分布を想定することが必要である。ベイジアンアプローチを用いることがより防御的な方法である。

「ゲノム解析のような場合は、ランダムな配列を前提とするので、多重比較の調整を行うことに妥当性があるが、治療効果に真に差がある場合には、Type II errorが起きうるが、Type I errorは起こらない。解析の文脈が重要になる。もし、ベイジアンアプローチを用いれば、その研究までの事前情報に基づいて、事前分布を設定することができるので、多重比較によるType I errorが起きにくくなる。」

誤解6. 有意差検定はデータの解釈に有用で重要である。

  理想的には効果量effect sizeの大きさを推定し、それを歪める可能性のあるエラーを分析する必要がある。交絡のような系統的なエラーは分析的な方法(多変量解析の共分散の調整など)で対処でき、測定過誤あるいは選択バイアスは感度分析(バイアス分析と呼ばれる)で対処することができる。P値また信頼区間に無効果の値が含まれるかだけで結果を評価することは、研究結果の誤解を招く可能性がある。

*なお、Modern Epidemiologyの第3版は2018年に出版されていますが、第4版が2021年に出版されました。

**「」内は投稿者の意見です。

「全体として、統計学に対する誤解、生物学的な現象を深く考えることの軽視、臨床的な現象や臨床的な文脈の軽視、方法論に拘束された柔軟な思考の喪失、人の体験の全情報を測定することはできずいくつかのアウトカムに対する効果を見ているにすぎないことに対する認識の低さ、などがこれら誤解の背景にあると思います。」

NCQA-HEDISと医療のパフォーマンス

NCQAはアメリカのNational Committee for Quality Assurance国立品質保証委員会のことで、そのミッション:ヘルスケアの質を向上させること、ビジョン:より良いヘルスケア、より良い選択、より良い健康、だそうです。HEDISはNCQAの一部で、HEDISはHealthcare Effectiveness Data and Information Setヘルスケア有効性データおよび情報セットで、最も広く用いられているヘルスケアの改善ツールだそうです。

NCAQのプログラムは、1. Health Care Providers & Practices, 2. Health Plans & Other Organizations, 3. Data & Information Technologyがあり、3にはHealth Information Technology Prevalidation Programs, Digital Measurement Community, Telehealth – Taskforce on Telehealth Policyなど多数のプログラムがあります。

HEDISでは医療のパフォーマンスの測定を1.ケアの有効性 Effectiveness of Care、2.ケアのアクセス/可用性 Access/Availability、3.ケアの体験 Experience of Care、4.利用およびリスクで調整した利用 Utilization and Risk Adjusted Utilizatoin、5.健康プランの記述的情報 Health Plan Descriptive Information、6.電子的臨床データシステムを用いて報告された測定項目 Measures Reported Using Electronic Clinical Data Systemesの6つのドメインに分類される90の測定項目から行います。

例えば、ケアの有効性のドメインには、Prevention and Screening, Respiratory Conditions, Cardiovascular Conditions, Diabetes, Musculoskeletal Conditions, Behavioral Health, Medication Management and Care Coordination, Overuse/Appropriateness, Measures Collected Through the Medicare Health Outcomes Survey, Measures Collected Through the CAHPS Health Plan Surveyの項目があり、それぞれの項目の下にさらに多くの項目が含まれています。

例えば、Overuse/Appropriatenessの下位には、Non-Recommended Cervical Cancer Screening in Adolescent Femalesという項目があります。16-20歳の女性を対象に、不必要な子宮頸癌のスクリーニング検査を受けた割合を測定項目としており、なぜそれが問題なのかについては、子宮頸癌のスクリーニング検査は益benefitsより害harmの方が多い。思春期の女性は一過性のHPV感染が多く、子宮頸部の病変は自然消退する、したがって、偽陽性が多いので、不必要で有害な可能性のあるフォローアップ検査と治療を招くことになる、と述べられています。

さて、2021年3月に発表されたJaklevic MCらの論文は、便潜血反応(Fecal Immunochemical Test, FIT) が陽性の場合、大腸鏡検査までどれくらい間隔があいても不利益を被らないか?について論じています。この中で、HEDISの影響の大きさについて記述があります。もし、医療のパフォーマンスの測定項目にFITが陽性の場合、例えば、6か月以内に大腸鏡を受けた患者の割合を追加すると、大腸癌による死亡が減少することが期待できるかもしれない。

Jaklevic MC. The Push for Timely Follow-up After Abnormal At-home Colon Cancer Screening Results. JAMA. 2021 Mar 31. doi: 10.1001/jama.2021.2018. Epub ahead of print. PMID: 33787816.

Quality Indicator (QI)などとの関係も含め、HEDISの活動には今後も注目する必要がありそうですが、データの規模・正確さ、取り扱う医療の範囲、スピードなど様々な点で、HEDISのアプローチは優れているように思えます。また、”ビッグデータ”とも関係があります。HEDISのウェブページにはLATEST HEDIS VIDEOSがあり、多数のビデオがアップされています。

EBM crisis?

MGICappのウェブサイトPublicationsのタブを開くと、Vandvik Pの2016年のGuidelines International Network (G-I-N)における”The Evidence Ecosystem”と題する発表のビデオがあり、その2分6秒(2:06)で取り上げられている論文が、2014年のGreenhalgh TらのBMJに発表された論文です。タイトルは”Evidence based medicine: a movement in crisis?”です。7年前の論文ですが、「Evidence based medicineは多くの利点があったが、いくつかの意図されなかった負の結果があった」ことが述べられています。

Crisisとして挙げられているのは、次のようなことです:
・エビデンスに基づいた「品質マーク」が既得権益者に悪用されている。
・エビデンスの量、特に臨床ガイドラインの量が多すぎて参照しきれなくなっている。
・統計的に有意な利益は、臨床現場ではわずかmarginalなものかもしれない。
・融通の利かないルールやテクノロジーを駆使したプロンプトは、患者中心ではなくマネージメント主導のケアを生み出す可能性がある。
・エビデンスに基づくガイドラインは、複雑な多臓器疾患にはうまく対応できないことが多い。

次に、☆Real evidence based medicine(真のEBM)は次のようなものであると述べています:
・患者の倫理的なケアを最優先事項とする。
・臨床家と患者が理解できるフォーマットで個別化したエビデンスを求める。
・機械的な規則に従うことではなく専門家の決断により特徴づけられる。
・意味のある対話を通して患者と決断を共有する。
・臨床家-患者の強い関係とケアの人間的側面の上に構築する。
・エビデンスに基づく公衆衛生にはコミュニティーレベルでこれらの原則を適用する。

そして、☆真のEBMを提供するためのアクションとしては以下のものが挙げられています:
・患者はより良いエビデンス、より良い提示、よりよい説明、そしてより個別化した方法で適用されることを要求すべきである。
・臨床研修は文献検索と批判的吟味を超えた、専門家としての判断と協働意思決定Shared Decision Makingへ進むべきである。
・エビデンスサマリー、診療ガイドライン、意思決定支援ツールの作成者は利用者、目的、制約を明確にすべきである。
・出版者は研究が方法論的水準だけでなく利用しやすさusabilityの水準を満たすことを要求すべきである。
・政策決定者は既得権益者によるエビデンスの手段としての生成と利用に抵抗すべきである。
・独立した資金提供者が質の高い臨床的および公衆衛生のエビデンスの創生、統合、配布を形成することがますます必要である。
・研究計画はより広範で、より学際的で、疾患経験、エビデンスの解釈に関する心理学、臨床家と患者の交渉とエビデンスの共有、過剰診断による害の予防法を取り込むべきである。

そして、”真のEBMは個々の患者のケアを最優先事項とし、これらの状況下で、その疾患あるいは病態のこの時点で、何がこの患者のための最善の一連のアクションか、を問うものである”。”そのためには、エビデンスはその患者のために個別化されなければならない。適切なケアの決断は最善の(平均としての)エビデンスとは異なるかもしれない”と述べています。

この点ではDecision science, Multi-criteria decision analysis (MCDA)、Shared Decision Makingの理解と実践スキルが求められていると思います。

Comparative Effectiveness Research比較効果研究の必要性も関連してきます。

臨床研修はルールに従うことから、方向を変える必要があることも主張されています。”基礎的な数量リテラシーnumeracy、データベース検索、研究に対してシステマティックに質問できる能力を含む批判的吟味のスキルはEBMのコンピテンスの前提であり、臨床家はこれらを実際の患者に適用する必要がある”ということも述べられています。

最後に、☆真のEBMのためのキャンペーンとして、過剰医療への対策、すべての臨床研究の登録、医学研究おける無駄の低減、出版の水準の改善、統合化された医学教育が挙げられています。

2014年の論文なので、この論文で指摘された問題や課題は、今2021年の時点では、その後、解決されたり、解決に向かって進みつつあるものもあるでしょうし、2014年の時点ではまだわからずその後新たに出てきた問題や課題もあるでしょう。

MAGICappは、いまだ解決されていない課題に応えようとする活動のひとつのようですが、解決法はひとつではないでしょう。

エビデンスがないNo evidence

「。。。にはエビデンスがない」と言ったらその後には何が続くでしょう?

おそらく、「。。。はしない方がいい」でしょう。「。。。にはエビデンスがある」だったら?

おそらく、「。。。をした方がいい」でしょう。

果たしてこれでいいのでしょうか?

診療ガイドラインで推奨を作成する場合は、「。。。にはエビデンスがないから」「。。。をしないことを推奨する」でしょうか?「。。。にはエビデンスがあるから」「。。。をすることを推奨する」でしょうか?

エビデンスとはある・なしのどちらかでしょうか?さらに、益のエビデンスと害のエビデンスと両方考える必要があります。

US Preventive Task Force (USPSTF)は、推奨をA, B, C, D, Iに分類していることについて以前の投稿の中で述べました。この中で、Grade Cは”USPSTFは、専門家の判断と患者の好みPreferencesに基づいて、選択的に個人個人の患者に提供することを推奨する。正味の益が小さいことに少なくとも中等度の確実性がある”と定義されています。患者の好みPreferencesは患者の価値観と同義と考えてください。

Grade Iは”USPSTFは、現在のエビデンスがそのサービスの益と害のバランスを評価するのに不十分であると結論付ける。エビデンスはないか、貧弱か、あるいは矛盾しており、益と害のバランスを決められない”と定義されています。

益と害のバランスthe balance of benefits and harmsは正味の益the net benefitと同じ意味です。正味の益は、”The net benefit is defined as benefit minus harm of the preventive service as implemented in a general, primary care population. ” すなわち、その予防医療サービスが一般のプライマリケア集団で実行されるときの益ひく害が正味の益と定義される、と。ここでは益から害を減じた(引き算した)値を正味の益Net benefitと定義しています。

以上を前提に、Braithwaite RSの”EBM’s six dangerous words.” (文献)の意味を考えてみましょう。

“EBM’s six dangerous words.”とは”There is no evidence to suggest…”の6つの言葉のことです。つまり、「。。。を提案(示唆)するエビデンスはない」という表現のことです。

Braithwaite RSのこの論文における主張は、この表現は4つの意味でつかわれているので、そのどれなのかをわかるように最初からそれら4つの内のどれかの表現を使いましょうということです。

1.科学的エビデンスは決定的ではなく、どれが最善か分らない。(USPSTF Grade Iでベイジアン無情報事前分布の場合)
2.科学的エビデンスは決定的ではないが私の経験あるいはその他の知識は”X”を示唆する。(USPSTF Grade Iで”X”を示唆するベイジアン有情報事前分布の場合)
3.これは益がないことが証明されている(USPSTF Grade D)
4.これはどっちつかずで、ある患者には益が害を上回り、別の患者にはそうではない(USPSTF Grade C)

1の場合、USPSTFは、”臨床的考察のセクションを読み、もし、そのサービスを提供するのであれば、患者は益と害のバランスの不確実性を理解すべきである”とSuggestions for Practiceで述べています。すべきではないと決めつけているわけではありません。

2の場合は、1の場合と同様ですが、1と比べるとそのサービスが提供される可能性が高くなるでしょう。

1,2で事前分布Priorと言っているのは、Braithwaite RSです。USPSTFの記述にはありません。彼の考えは、その時点における仮説Hypothesisがあって、それが正しい確率P(H)が、その後データDataが得られるとその正しい確率P(H|D)はデータが正しい確率P(D)とその仮説が正しい時にそのデータが得られる確率P(D|H)によって決まるというベイズの定理の、P(H)のことです。P(H|D) = P(D|H)×P(H)/P(D)の式で表されます。

つまり、エビデンスが決定的でない、不確実性が高い場合でも、その程度は異なり、”私の経験あるいはその他の知識”の正しい確率=P(H)に相当する値は様々で、1の場合は、それが0に近い、2の場合は、もう少し大きいということになります。つまり、”今までの自分の経験や間接的なデータ、研究結果から、Xが有効の可能性が少しある”という場合と、”全くわからないが、Xはまず効果がある可能性は殆どゼロ”という場合では、判断が違ってきます。

3の場合は、害が益を上回る状態になります。だから、しない方がいい。

4の場合は、患者の価値観によって、ある患者にはすることになり、別の患者にはしなことになります。

とうことから、エビデンスがないからと言って、してはいけないという決断をすると多くの場合、間違った決断になってしまうでしょう。

臨床の現場では、何もしないという選択肢も含めて、どれかに決める必要があります。その際に、エビデンスがないからしない、という考え、また、診療ガイドラインにおいて、ランダム化比較試験がない領域では、推奨を作成することはできないという考えは、偏った考えではないでしょうか。

エビデンスの確実性は、All or nothingあるいは1か0かではありません。Quantitative Benefit-Risk Assessmentを行う際には、エビデンスの確実性を表すのに、確率分布を使います。以前の投稿、益と害の定量的評価法 Quantitative benefit-harm assessmentKeeney and RaiffaのSwing weightingを用いたMCDASwing weightingを用いたMCDAの結果、などを参照してください。

文献
Braithwaite RS: A piece of my mind. EBM’s six dangerous words. JAMA 2013;310:2149-50. doi: 10.1001/jama.2013.281996 PMID: 24281458

同じ論文が2020年に再掲されています。
Braithwaite RS: EBM’s Six Dangerous Words. JAMA 2020;323:1676-1677. doi: 10.1001/jama.2020.2855 PMID: 32369132