DTAのメタアナリシス

Diagnostic Test Accuracy (DTA) 診断精度研究のMeta-analysis (MA)メタアナリシスは介入の効果のメタアナリシスとは異なります。手法が異なるだけでなく、結果の解釈や活用法も異なります。

DTA MAの結果、感度・特異度の統合値と95%信頼区間、陽性尤度比、陰性尤度比、診断オッズ比(Diagnostic Odds Ratio, DOR)、Summary Receiver Operating Characteristic (SROC) curve、およびSROCの曲線下面積(Area under the curve, AUC)などの推定値が得られます。

DTA MAの統計学的モデルとして、Reitsma のBivariate model二変量モデル、階層モデルである Rutter & GatsonisのHierarchical Summary Receiver Operating Characteristic (HSROC)モデルの使用が推奨されています。共変量を用いない場合は二変量モデルとHSROCモデルは数学的に同じものです(Arends LR;Harbord RM) 。

DTA MAに関する書籍としては、Biondi-Zoccai G ed. Diagnostic Meta-Analysis: A Useful Tool for Clinical Decision-Making. Springer, Cham, Switzerlandが包括的な内容で、有用と思います。また、Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracyは2022年度Version 2が発表されており、包括的な内容で、SAS、R用のスクリプトが具体的に解説されており、有用だと思います。

Reitsma JBのオリジナルの論文では、近似正規分布を用いるため、症例数が少なく、感度・特異度が95%程度に高い場合には、誤差が大きくなることをChu Hらが指摘しており、Cochraneはコクランのシステマティックレビューに使用することは推奨しないとしています。また、ゼロイベントのある場合に0.5を加算して補正する方法もずれを生じます。そのため、広く使用されているRのパッケージであるmadaの使用は推奨できないと述べられています。実際に、Chu Hらの論文でシミュレーションの結果を見ると、症例数が25例以下、感度・特異度が95%以上になると二項分布を用いる場合とずれが大きくなるのは確かですが、Chu HのLetterに対するReitsma JBの返答で述べられているように、多くの場合臨床上の問題を生じるほどではないと考えられます。

Cochrane Handbook for Systematic Reviews of Diagnostic Test AccuracyのAppendix 14では同じ対象者でCTとMRIを施行し、診断能を比較した5つの研究のDTA MAの例が記載されており、Rのlme4パッケージのglmer()関数を用いて、GLMM (Generalized Linear Mixed Effects Model)で二項分布による回帰モデルを用いています。Appendix 12では同じ対象者で二つの診断法を実施したのではなく、別の対象者でそれぞれの診断法の感度・特異度を測定した研究をもとに、二つの診断法の診断能を比較するための解析法が記載されています。こちらは、間接的な比較という表現が使われており、同じ対象者で直接比較した研究も含めて解析できる方法が示されています。

感度のロジットと偽陽性率のロジットを従属変数とし、各研究の感度のロジットと偽陽性率ロジットで回帰モデルを作っています。ロジットはオッズの自然対数、つまりlogit(se)=ln[se/(1-se)],  logit(sp)=ln[sp/(1-sp)], logit(fpr)=-logit(sp)です。

具体的には図1に示すようなデータに対して、回帰分析を行い、ロジットのExponentialでオッズに変換し、さらにオッズ/(1+オッズ)で割合に変換して感度・特異度の値を求めています。図1の例は同一症例でCTとMRIを施行しており、これら二つの検査法の感度・特異度の統計学的な比較が行われています。

図1.二つの診断法の直接比較のためのデータ。

通常、元になるデータは各研究IDとTP, FP, FN, TN (True Positive, False Positive, False Negative, True Negative)の人数のデータと検査法のデータです。それらから、図1の形式のデータフレームを作成し、以下のスクリプトで解析を行います。

###Comparison of sensitivity and specificity between two tests done in the same subjects###
###Random-effects meta-analysis with bivariate model using binomial distribution###
library(lme4)
library(lmtest)
###Y is a data frame as shown in Fig. 1###
(B = glmer(formula=cbind(true, n – true) ~ 0 + seCT + seMRI + spCT + spMRI + (0+sens + spec|Study_ID), data=Y, family=binomial))
(C = glmer(formula=cbind(true, n – true) ~ 0 + sens + spCT + spMRI + (0+sens + spec|Study_ID), data=Y, family=binomial))
###Is there a statistically significant difference in sensitivity between CT and MRI?
lrtest(B,C)


###Is there a statistically significant difference in specificity between CT and MRI?
lrtest(B,D)

実際には各研究IDとTP, FP, FN, TN のデータから図1の形式のデータフレームを作成する部分のスクリプトも必要ですが、ここではlmer()関数の回帰モデルと図1のデータラベルの関係を考えて、回帰分析とメタアナリシスの関係を考えるきっかけになればと思います。

なお、ここでは触れませんでしたが、感度・特異度の統合値と95%信頼区間の計算はCTとMRIについて別々に回帰分析を行った結果から算出します。

文献:
Chu H, Cole SR: Bivariate meta-analysis of sensitivity and specificity with sparse data: a generalized linear mixed model approach. J Clin Epidemiol 2006;59:1331-2 author reply 1332-3. doi: 10.1016/j.jclinepi.2006.06.011 PMID: 17098577

Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH: Bivariate analysis of sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiol 2005;58:982-90. doi: 10.1016/j.jclinepi.2005.02.022 PMID: 16168343

Rutter CM, Gatsonis CA: A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med 2001;20:2865-84. PMID: 11568945

Harbord RM, Deeks JJ, Egger M, Whiting P, Sterne JA: A unification of models for meta-analysis of diagnostic accuracy studies. Biostatistics 2007;8:239-51. doi: 10.1093/biostatistics/kxl004 PMID: 16698768

Arends LR, Hamza TH, van Houwelingen JC, Heijenbrok-Kal MH, Hunink MG, Stijnen T: Bivariate random effects meta-analysis of ROC curves. Med Decis Making 2008;28:621-38. doi: 10.1177/0272989X08319957 PMID: 18591542

Rのsource()関数の応用

統計解析プラットフォームとして広く使われており、プログラミング言語であるRにはsource(URL)という関数があります。Rのスクリプトをウェブサーバーにアップロードしておき、そのファイルのURLをsource()関数の引数として設定し、Rでそれを実行させると、ウェブサーバーからスクリプトが読み込まれて実行されます。

解析対象のデータはクリップボードにコピーしておいて、それをread.delim()関数で変数に読み込んで、その変数に対して処理を行うスクリプトを用意しておくことで、各自用意したデータを解析するシステムが作れます。解析したいデータはCSVファイルで用意して、それを読み込ませて解析する方法も可能です。

source()関数で読み込むRのスクリプトはウェブサーバーに置いてありますが、それを読み込んで実行させるスクリプトは各自のPCにインストールしたRで実行します。それを読み込んで実行させるスクリプトは、各自で保存しておくこともできますし、別のウェブページから提供することも可能です。useRsもそのようなウェブページのひとつですが、別の方法でも同じことが可能です。

例えば、メタアナリシスのさまざまなモデルに対応したスクリプトを用意して、ウェブページで選択して、実行させるというようなことができます。

システマティックレビューに必要なExcelシートを集め、メタアナリシスのためのRのスクリプトを含めたBookを作りました。2023_excel_book_for_sr_v.0.96.xlsxから自分の必要なシートをシートのタブを右クリックして、My SR Book.xlsxにコピーを追加し、目次のシートに各シートの名前を入力してそれらへのリンクを設定し、利用することができます。

リスク比、オッズ比、リスク差、ハザード比、平均値差、標準化平均値差 (RR, OR, RD, HR, MD, SMD)のメタアナリシスをRのmetaforパッケージで、診断精度研究のメタアナリシスをRのmadaパッケージを利用して実行します。Forest plotの作成にはRのforestplotパッケージを用いる場合もあります。Rをインストールし、必要なパッケージをRでインストールしてから使います。

Pictogram1000ff 正味の益とピクトグラム作成

益のアウトカムと害のアウトカムを最大10個まで設定可能で、絶対リスク=単一群のイベント数を1000人あたりの人数で設定し、アウトカムの重要性を0~100で設定して、対照群と介入群の正味の益の差を計算するとともに、ピクトグラムとイベント数の差およびアウトカムの重要性で重みづけしたイベント数の差をグラフ表示するウェブツールを作成しました。ベーラインリスクとRR, OR, HR, RDの値から介入群のイベント数を計算することもできます→https://sr.xrea.jp/tool/picto/pictogram1000ff.htm

COVID-19のステロイド全身投与に関するWHOの推奨のデータを用いた例がこちらです→https://sr.xrea.jp/tool/picto/covid-19-systemic-steroid-who.htm

アウトカムの重要性の値は個人で異なるので、いろいろ値を変更して正味の益がどう変わるか試すことができます。

相対効果指標から絶対効果を求める How to convert RR OR HR to RD

介入の効果は対照群と比較した相対的効果指標であるリスク比Risk Ratio (RR)、オッズ比Odds Ratio (OR)、生存分析の場合はハザード比Hazard Ratio (HR)で評価されることが一般的です。Risk Difference (RD)をメタアナリシスで統合することももちろんできますが、これらの効果指標が用いられることが多く、エビデンス総体の非一貫性の評価の際はRRまたはHRを用いることが望ましいとされています。ネットワークメタアナリシスではORが用いられることが多いようです。まずこれらの効果指標がどのように計算されるかを見ておきましょう。

図1.効果指標のタイプと計算法。
図2.イベント確率(割合)、ハザード率およびハザード比の関係。介入群のハザード率を対照群のハザード率で割り算するとハザード比が得られる。対照群のハザード率にハザード比を掛け算すると介入群のハザード率が得られる。

一方、望ましい効果(益)の大きさ、望ましくない効果(害)の大きさを異なるアウトカム間で比較するには、絶対効果を示すリスク差Risk Difference (RD)を用いる必要があります。RR, OR, HRでは同じ値であってもベースラインリスクが異なるとRDが異なるので、絶対効果の大きさは同じとはならず、そのまま比較することはできないことは明らかです。一方、RDは値が2倍になれば、2倍の人数の人が影響を受けることは明確です。

メタアナリシスでOR、RRあるいはHRを統合した場合、それらについて、エビデンスの確実性の評価をランダム化比較試験であれば、バイアスリスク、非直接性、不精確性、非一貫性、出版バイアスの5ドメインから評価します。その先、望ましい効果(益)、望ましくない効果(害)の大きさと、益と害のバランス=正味の益を評価するためには、絶対効果=RDを求める必要があります。そのため、GRADEアプローチではSummary-of-Findings (SoF)table結果のまとめ表では①相対効果指標と95%信頼区間、②対照群の絶対リスク、③介入群の絶対リスク、and/or、④絶対効果と95%信頼区間を記述することが求められています。相対効果指標と95%信頼区間はメタアナリシスから得られます。対照群の絶対リスクはメタアナリシスに含めた研究の対照群の総症例数から算出した値、疾患レジストリなど他のデータソースからの値、想定される高・中・低リスクの値を設定するなどが考えられます。

絶対効果はRR、OR、HRと対照群の絶対リスク=CER (Comparator Event Rate)から以下に示す方法で計算することができます。

図3.相対効果指標から絶対効果を求める。CER×(1-RR)で得られる絶対効果の値は、対照群の絶対リスク-介入群の絶対リスクに相当します。CER×(RR – 1)で得られる絶対効果の値は介入群の絶対リスク-対照群の絶対リスクの値になります。これら2つの値は正負が逆になりますが、絶対値は同じです。

ORからRRを計算する方法は図4に、HRからRRを計算する方法は図5に示す通りです。数式の形を変えるだけなので、単なる数学的な課題で、だれが考えても同じになります。

図4.ORからRDを計算する。ここに示すRDの計算は図3とは逆に、介入群の絶対リスク-対照群の絶対リスクを計算しています。
図5.HRからRDを計算する。ここに示すRDの計算は図3とは逆に、介入群の絶対リスク-対照群の絶対リスクを計算しています。

RDを計算する際に、介入群の絶対リスク-対照群の絶対リスクを計算する方が分かりやすいと思います。図4と図5、6は逆になっていますが、測定されるアウトカムが有害事象なのか有益事象なのかによってもどちらが分かりやすいかはまた変わってきます。

いろいろな考え方がありえますが、正味の益=益の大きさ-害の大きさで計算し、プラスの値であれば、正味の益が大きく、マイナスの値であれば正味の害が大きいというようにするためには、益のアウトカムには有益事象を測定し、害のアウトカムには有害事象を測定し、介入群の絶対リスク-対照群の絶対リスクを計算すると介入群の益が大きければ益はプラスの値、介入群の害が小さいと害はマイナスの値になり、正味の益=益の大きさ-害の大きさの計算ではプラスの値からマイナスの値を引き算するので、全体としてプラスが大きくなります。もし、介入群の害が対照群より大きい場合は、害はプラスの値になり、正味の益はその分引き算されて小さくなります。このような取り扱いが分かりやすいのではないかと思います。

アウトカムが有害事象か有益事象かに合わせてプラスマイナスを変えて計算し、RD=CER×(1-RR)ですべて計算する方法もあり得ます。その方が分かりやすい人もいると思います。また、グラフ化する際にはもう少し考慮すべき点がありますが、皆さんも考えてみて下さい。

そして、100人あたり、1000人あたり、10000人あたりの頻度人数にするには、RDにこれらの値を掛け算することになり、四捨五入するか切り捨てるかも決めておく必要があるでしょう。