Statistics – ページ 9

Six persistent research misconceptions

Modern Epidemiology＊の著者の一人である、Rothman KJは2014年に”研究における持続する6つの誤解”というタイトルの論文を発表しています（Rothman KJ: Six persistent research misconceptions. J Gen Intern Med 2014;29:1060-4. doi: 10.1007/s11606-013-2755-z PMID: 24452418）

以下にそれを紹介します。ここに書いたことは短いまとめなので、これだけを読むと、さらに誤解をする人がいるかもしれません。原文をじっくり読んでいただきたいと思います。

誤解1. 研究デザインには階層があり、ランダム化比較試験が最も妥当性が高く、次にコホート研究が続き、症例対照研究は最も信頼性が低い。

深く考えずに、高い妥当性を研究デザインの階層に帰するのは間違いである。

「研究デザインのみに基づいて結果の妥当性を判定することは、すべきではないという意味であって、研究デザインを明確にすることが不要であるという意味ではない。ランダム化比較試験であっても、バイアスの大きな研究の妥当性は低くなることに異論はないであろう。」

誤解2. 研究から妥当性の高い一般化を行うために必須の要素は、研究対象者が標的集団の代表的サンプルで構成されていることである。

科学的な一般化generalizationと統計学的外挿extrapolationは異なる。科学的一般化は自然現象について正しい声明を作るプロセスである。

「例えば、動物実験では、単一種を用いて、要因曝露や治療の効果をとらえやすくできる。ヒトを対象にした研究でも、効果を証明するために、対象者が限定された研究の結果でも、共変量を調整したうえで異なる集団に一般化したり、個人に適用する場合には、価値観による調整も行ったうえで、結果を適用することは可能である。そのさいに、数理統計学的モデルは手助けしてくれるが、必ずしも絶対的な基準とはならない。」

誤解3. もし回帰モデルで、２つの因子の積が統計学的に有意でなければ、これらの因子の間に生物学的な相互作用はない。

統計学的交互作用と生物学的相互作用は異なる。生物学的相互作用は２つまたはそれ以上の原因が同じメカニズムに作用し、相互に依存関係がある効果を持つことである。２つの原因となる因子が同時に作用した場合、個別の作用の合計とは異なる効果になる場合、生物学的相互作用がある。生物学的相互作用は必ずしも統計学的交互作用としてとらえられないこともあり、用いられるモデルや測定尺度の影響を受ける。

誤解4. 連続変数を分類するとき、分類のカットポイントに分布の４分位あるいは５分位のようなパーセントによる境界を用いることは妥当な方法である。

ひとつには、パーセンタイルによる境界値は生物学的な意義のある変化が起きる値とは異なり、二つ目には、パーセンタイルに基づく境界値は研究間で異なるので、必ずしも妥当な方法ではない。

誤解5. 常に、多重比較で調整されたP値または信頼区間を報告すべきである。

多重比較のType I errorを減らすための調整はType II errorの増加を伴い、本当は差があるのに、差がないという結論を出す可能性が高くなる。生物学的データを解析する場合、すべてがランダムな値であるという前提よりも何らかの差があることが前提の場合が多い。機械的に多重性の調整を適用する前に、事前情報から事前分布を想定することが必要である。ベイジアンアプローチを用いることがより防御的な方法である。

「ゲノム解析のような場合は、ランダムな配列を前提とするので、多重比較の調整を行うことに妥当性があるが、治療効果に真に差がある場合には、Type II errorが起きうるが、Type I errorは起こらない。解析の文脈が重要になる。もし、ベイジアンアプローチを用いれば、その研究までの事前情報に基づいて、事前分布を設定することができるので、多重比較によるType I errorが起きにくくなる。」

誤解6. 有意差検定はデータの解釈に有用で重要である。

理想的には効果量effect sizeの大きさを推定し、それを歪める可能性のあるエラーを分析する必要がある。交絡のような系統的なエラーは分析的な方法（多変量解析の共分散の調整など）で対処でき、測定過誤あるいは選択バイアスは感度分析（バイアス分析と呼ばれる）で対処することができる。P値また信頼区間に無効果の値が含まれるかだけで結果を評価することは、研究結果の誤解を招く可能性がある。

＊なお、Modern Epidemiologyの第3版は2018年に出版されていますが、第4版が2021年に出版されました。

＊＊「」内は投稿者の意見です。

「全体として、統計学に対する誤解、生物学的な現象を深く考えることの軽視、臨床的な現象や臨床的な文脈の軽視、方法論に拘束された柔軟な思考の喪失、人の体験の全情報を測定することはできずいくつかのアウトカムに対する効果を見ているにすぎないことに対する認識の低さ、などがこれら誤解の背景にあると思います。」

R-bloggers

Rに関するブログを集めて紹介するR-bloggersというサイトがあります。英語でRに関する情報をブログで発信している人が、登録できるようになっています。また、メーリングリストも運営されており、参加すると適宜新しい情報がメールで送られてきます。Web siteで右サイドバーの上の方にSubscribe用のフィールドがあります。こちらは誰でも参加出来ます。

例えば、今日は”Animating U.S. COVID-19 hotspots over time”に関する情報が送られてきました。

Rを使う統計解析セミナー

Introduction to statistics using R and Rstudio (IRRS02)

28 October 2020 – 29 October 2020 –>Link

WinBUGSのメーリングリストで回ってきました。COVID-19のため、オンラインで提供され、募集人数は20名までだそうです。275ポンド（約3万8千円）で、2日間約15時間のコースだそうです。その他、Pythonを使った機械学習のセミナーなど全部で14件の案内が来てます。

WinBUGSのメーリングリストに参加するには、OpenBUGSのサイトで、左サイドバーからCommunityを開き、下の方にあるWinBUGS mailing listからSubscribeの操作をします。

SUCRA (Surface Under the Cumulative Ranking Curves)

SUCRAはNetwork Meta-analysisの結果について治療効果の順位を表す一つの指標です。累積順位曲線下面積という意味になります。それぞれの治療について累積順位確率を縦軸に順位を横軸にして描かれる曲線下の面積になるということです。

Network Meta-analysisでは3つ以上の治療法について比較することができ、その結果の一つとして順位確率が得られます。また、統合値には間接比較の情報も取り込まれまれていますので、理論的にはペア比較のみの通常のメタアナリシスよりより確実性の高い結果が得られます。あくまで理論的にはです。

順位確率は一つの治療選択肢が1位、2位、3位…それぞれの順位になる確率を表すものです。もしK個の治療が比較されたとすると、一つの治療について順位1からKまでの順位確率の総和は1.0になります。またそれぞれの順位について全ての治療について順位確率の総和を求めるとやはり1.0になります。SUCRAはこれら順位確率の値から計算されます。

その治療法が1位になる確率、すなわち順位確率が2位以下の治療法と比べて、大きな差がある場合は、1位になる確率だけをみて、最善の治療法を選択しても問題はないと考えれらます。しかし、1位になる順位確率が次善の治療法と近い値の場合には、2位になる順位確率も考慮したほうが良いだろうということは直感的に理解できます。さらに、3位、4位、…の順位確率も全体を考慮しようとすると、SUCRAになります。

文献) Salanti G, Ades AE, Ioannidis JP: Graphical methods and numerical summaries for presenting results from multiple-treatment meta-analysis: an overview and tutorial. J Clin Epidemiol 2011;64:163-71. PMID: 20688472

下の図に上記のSalanti Gらの論文からその計算方法を一つの例とともに示します。1位からK-1位までの累積順位確率の総和をK-1で割り算することによりSUCRAの値が得られます。SUCRAは値が100%の治療は最善であり、値が0の治療は最悪の治療と解釈されます。その値の順序は治療効果の順序を表しています。ここでは、SUCRAの値を％で表しています。計算式は図1にある通りで、順位確率から累積順位確率を求め、それらの総計をK-1で割り算するだけです。

図1のSURCAをグラフ表示すると、以下のようなグラフになります。

図2．SUCRA曲線グラフ。曲線下の面積がSUCRAになる様に、横軸は順位に∔0.5した値のところにプロットされています。最下位のところはどの治療もすべて1.0になります。

SUCRAの計算式を見ると、K-順位の値を順位確率で重みづけして、合計値を求め、最大値が100、最小値が0になるように標準化しているだけなことがわかります。K-順位の値は、1位が最大で、最下位が最小になります。

SUCRAの意味を考えてみることにします。わかりやすくするために、4頭の競走馬がそれぞれ1位から4位になる確率がわかっていて、それぞれの順位の賞金が決まっている場合、どれくらいのリターンが得られといえるか考えてみます。図3にデータを示します。

順位確率の値は、図1の場合と同じにしました。ざっと眺めると、1位の確率が一番高いのは競走馬2です。競走馬4が最下位の確率が一番高いこともわかります。

まず左側の順位確率にそれぞれの賞金の額を掛け算した値を計算します。たとえば、競走馬１は25, 12.5, 7.5, 0となります。もし競走馬1が１位になったら、１００万円の賞金が獲得できるわけですが、１位の確率は0.25なので、100×0.25=25万円が現在の価値です。もし２位になったら５０万円の賞金が獲得できるわけですが、２位の確率は0.25なので、50×0.25=12.5万円が現在の価値です。3位、4位も同様に計算します。

確率で考えるとわかりにくい場合は、次のように考えてみてください。この表に示す競走馬1の場合、これらの確率で起きる事象を何回も繰り返すと、例えば、100万回繰り返すと、1位になるのが25万回、2位になるのが25万回、3位になるのが25万回、4位になるのが25万回にになるはずです。多項分布に従うので、回数が少ないともっとばらつきますが、100万回も繰り返せば、まずこうなるでしょう。さて、100万回競走馬１にかけた場合、獲得賞金の平均は、(100×25万＋50×25万＋30×25万＋0×25万)/(25万＋25万＋25万＋25万)=45万円です。

分かりやすくするために、100万回繰り返した場合を考えて計算しましたが、もともと順位確率を競走馬それぞれで合計すると1.0になるので、単純に先に計算した順位確率で重みづけした賞金金額を合計する、つまり25+12.5+7.5+0 = 45万円が競走馬1の予想獲得金額、いいかえると現在の価値となります。

さらに、予想される最高獲得金額は1位になった場合の、100万円、最小獲得金額は4位になった場合の0円なので、これら最大値、最小値を用いて標準化してみます。図3の右下の標準化賞金のところに書いてある計算式で計算します。つまり、予想獲得金額から最小値を引き算した値を、最大値から最小値を引き算した値で割り算し、%にするため100を掛け算します。この値は、最大で100、最小で0となります。各競走馬の標準化賞金を見ると、競走馬2が70万円で最高になります。この例では、1位の賞金が100、4位の賞金が0にしてあるので、平均賞金と標準化賞金が同じ額になっています。

それでは、賞金金額を先ほどのSUCRA計算時に使ったK-順位の値に置き換えて同じように計算してみます。1位から4位までの価値を3,2,1,0と設定することになります。平均価値は上記の平均賞金、標準化価値は同じく標準化賞金と同じ計算法です。

標準化価値はSUCRAと同じ値になります。SUCRAの計算はそれぞれの順位の価値をそれぞれの順位になる確率で重みづけした平均値と同じだということがわかります。それでは、なぜ、価値を3,2,1,0にする必要があるのでしょう？これを4,3,2,1に変えて同じ計算をやってみます。

標準化価値の値は全く同じです。SUCRAの計算はこのやり方でも算出できることがわかります。つまり、順序が同じで、間隔が同じ値を設定すると、SUCRAの値が計算できるということです。それでは、価値の値を100,80,60,40にしたらどうなるでしょうか。

図6の示すように、標準化価値はSUCRAと全く同じ値です。

それでは、順序は同じだが、間隔は異なる値を価値に設定したらどうなるか見てみましょう。

標準化価値は違う値になります。ただし、上下関係は変わりません。SUCRAは順位だけを問題にしているので、図1に示すような計算でいいのですが、1位と2位になった場合の絶対効果の大きさは違います。もしその治療が2位になったら、他の治療が1位になり、その治療のほうが効果が大きいはずです。

もし、各治療の絶対効果の大きさをK-順位のかわりに用いたら、順位は同じになりますが、それぞれの治療で得られるであろう絶対効果の大きさは異なる印象を与えかもしれません。たとえば、図7に示す例では、標準化する前の平均価値はSUCRAでは1位になる治療２が85、同じく2位になる治療3が80で大きな差は無いと思われます。

また、標準化する前の平均価値は最下位の価値を0にする場合と、そうでない場合で異なってきます。SUCRAは最下位を0にするので、それがプラセボや無治療であればいいのかもしれませんが、アクティブな治療の場合は、平均価値を0にすることに違和感があります。

順序変数は間隔が同じでないということがここには表れているとも言えます。順位は順序変数である、つまり1位と2位の間隔と2位と3位の間隔は必ずしも同じではないということです。

さて、GRADE approachではネットワークメタアナリシスのSoF (Summary of Findings) tableにはSUCRAを記述する欄があります。したがって、SURCRAの計算が必要になります。

文献）Yepes-Nuñez JJ, Li SA, Guyatt G, Jack SM, Brozek JL, Beyene J, Murad MH, Rochwerg B, Mbuagbaw L, Zhang Y, Flórez ID, Siemieniuk RA, Sadeghirad B, Mustafa R, Santesso N, Schünemann HJ: Development of the summary of findings table for network meta-analysis. J Clin Epidemiol 2019;115:1-13. PMID: 31055177