Modern Epidemiology*の著者の一人である、Rothman KJは2014年に”研究における持続する6つの誤解”というタイトルの論文を発表しています(Rothman KJ: Six persistent research misconceptions. J Gen Intern Med 2014;29:1060-4. doi: 10.1007/s11606-013-2755-z PMID: 24452418)
以下にそれを紹介します。ここに書いたことは短いまとめなので、これだけを読むと、さらに誤解をする人がいるかもしれません。原文をじっくり読んでいただきたいと思います。
誤解1. 研究デザインには階層があり、ランダム化比較試験が最も妥当性が高く、次にコホート研究が続き、症例対照研究は最も信頼性が低い。
深く考えずに、高い妥当性を研究デザインの階層に帰するのは間違いである。
「研究デザインのみに基づいて結果の妥当性を判定することは、すべきではないという意味であって、研究デザインを明確にすることが不要であるという意味ではない。ランダム化比較試験であっても、バイアスの大きな研究の妥当性は低くなることに異論はないであろう。」
誤解2. 研究から妥当性の高い一般化を行うために必須の要素は、研究対象者が標的集団の代表的サンプルで構成されていることである。
科学的な一般化generalizationと統計学的外挿extrapolationは異なる。科学的一般化は自然現象について正しい声明を作るプロセスである。
「例えば、動物実験では、単一種を用いて、要因曝露や治療の効果をとらえやすくできる。ヒトを対象にした研究でも、効果を証明するために、対象者が限定された研究の結果でも、共変量を調整したうえで異なる集団に一般化したり、個人に適用する場合には、価値観による調整も行ったうえで、結果を適用することは可能である。そのさいに、数理統計学的モデルは手助けしてくれるが、必ずしも絶対的な基準とはならない。」
誤解3. もし回帰モデルで、2つの因子の積が統計学的に有意でなければ、これらの因子の間に生物学的な相互作用はない。
統計学的交互作用と生物学的相互作用は異なる。生物学的相互作用は2つまたはそれ以上の原因が同じメカニズムに作用し、相互に依存関係がある効果を持つことである。2つの原因となる因子が同時に作用した場合、個別の作用の合計とは異なる効果になる場合、生物学的相互作用がある。生物学的相互作用は必ずしも統計学的交互作用としてとらえられないこともあり、用いられるモデルや測定尺度の影響を受ける。
誤解4. 連続変数を分類するとき、分類のカットポイントに分布の4分位あるいは5分位のようなパーセントによる境界を用いることは妥当な方法である。
ひとつには、パーセンタイルによる境界値は生物学的な意義のある変化が起きる値とは異なり、二つ目には、パーセンタイルに基づく境界値は研究間で異なるので、必ずしも妥当な方法ではない。
誤解5. 常に、多重比較で調整されたP値または信頼区間を報告すべきである。
多重比較のType I errorを減らすための調整はType II errorの増加を伴い、本当は差があるのに、差がないという結論を出す可能性が高くなる。生物学的データを解析する場合、すべてがランダムな値であるという前提よりも何らかの差があることが前提の場合が多い。機械的に多重性の調整を適用する前に、事前情報から事前分布を想定することが必要である。ベイジアンアプローチを用いることがより防御的な方法である。
「ゲノム解析のような場合は、ランダムな配列を前提とするので、多重比較の調整を行うことに妥当性があるが、治療効果に真に差がある場合には、Type II errorが起きうるが、Type I errorは起こらない。解析の文脈が重要になる。もし、ベイジアンアプローチを用いれば、その研究までの事前情報に基づいて、事前分布を設定することができるので、多重比較によるType I errorが起きにくくなる。」
誤解6. 有意差検定はデータの解釈に有用で重要である。
理想的には効果量effect sizeの大きさを推定し、それを歪める可能性のあるエラーを分析する必要がある。交絡のような系統的なエラーは分析的な方法(多変量解析の共分散の調整など)で対処でき、測定過誤あるいは選択バイアスは感度分析(バイアス分析と呼ばれる)で対処することができる。P値また信頼区間に無効果の値が含まれるかだけで結果を評価することは、研究結果の誤解を招く可能性がある。
*なお、Modern Epidemiologyの第3版は2018年に出版されていますが、第4版が2021年に出版されました。
**「」内は投稿者の意見です。
「全体として、統計学に対する誤解、生物学的な現象を深く考えることの軽視、臨床的な現象や臨床的な文脈の軽視、方法論に拘束された柔軟な思考の喪失、人の体験の全情報を測定することはできずいくつかのアウトカムに対する効果を見ているにすぎないことに対する認識の低さ、などがこれら誤解の背景にあると思います。」