Standardized Mean Difference (SMD)を用いるMeta-analysis

連続変数アウトカムで研究によって測定スケールが異なる場合、そのままではメタアナリシスで統合値を求めることはできません。連続変数アウトカムの場合は、各研究から対照群の平均値と標準偏差(SD)と介入群の平均値と標準偏差の値を抽出して平均値差Mean Difference (MD)の統合値と95%信頼区間を計算しますが測定スケールが共通の場合しか適用できません。

これらの平均値を標準偏差で割り算した値を得ることを、標準化standardizationと言います。もし各群の値を標準化すると平均値は標準偏差を単位とした値になり、標準偏差は1.0になります。それぞれの標準偏差を単位とした値に変換するという意味になり、連続変数アウトカムで、測定スケールが異なる場合、各研究の平均値差=介入群の平均値-対照群の平均値と標準化した平均値差の標準誤差あるいは分散を計算して、メタアナリシスを行い、統合値と95%信頼区間を計算することができます。分散逆数法であれば、分散の逆数を重みとして用い、ランダム効果モデルであれば、研究間の分散の値を平均値差の分散に加算して、その逆数を重みに用います。

得られた標準化平均値差Standardized Mean Difference (SMD)と95%信頼区間の値を、分かりやすい元のスケールに戻して、効果の大きさを評価することが行われます。元のスケールに戻すには、標準偏差の値が必要です。また、SMDが0.2は小さな効果、0.5は中等度の効果、0.8は大きな効果という考え方を用いることも提案されています。

SMDを用いるメタアナリシスの演算は、Keeds JJ, Higgins JPT:Statistical algorithms in Review Manager 5. 2010. Link に記載されている方法に従って行われることが一般的です。計算に用いられる式を図1と図2に示します。

図1. Standardized Mean Differenceとその分散の計算式。
図2.DerSimonian-Laird法によるランダム効果モデルを用いる分散逆数法によるメタアナリシスの計算式。

これらの計算はExcelでもできますし、Rのパッケージmetaforでもできます。また、著者が作成したMeta-analysis IZ Linkあるいは Meta-analysis IZ r Linkでもできます。Meta-analysis IZ rではMindsの評価シートのデータをReformatして、メタアナリシスを実行できます。

metaforはViechtbauer W氏の作成した優れたメタアナリシスのパッケージです。Link 以下のスクリプトはSMDを用いたメタアナリシスのスクリプトの一例です。escalc(), rma(),forest()はmetaforの関数です。

est=escalc(measure=”SMD”, m1i=m1i,sd1i=sd1i,m2i=m2i,sd2i=sd2i,n1i=n1i,n2i=n2i, append=FALSE)
summary(est)
res=rma(yi, vi, data=est, method=”DL”)
summary(res)
forest(res, showweights=TRUE)

m1i 介入群の平均値
sd1i 介入群の標準偏差
m2i 対照群の平均値
sd2i 対照群の標準偏差
n1i 介入群の症例数
n2i 対照群の症例数

method=”DL”でDerSimonian-Laird法、method=”REML”でRestricted Maximum Likelihood (REML)法を指定できます。

なお、このスクリプトではForest plotの細かい設定はしていません。

SMDを用いたシステマティックレビューの論文の一例として、Sekhar P, Tee QX, Ashraf G, Trinh D, Shachar J, Jiang A, Hewitt J, Green S, Turner T: Mindfulness-based psychological interventions for improving mental well-being in medical students and junior doctors. Cochrane Database Syst Rev 2021;12:CD013740. doi: 10.1002/14651858.CD013740 PMID: 34890044 があります。この論文ではDerSimonian-Laird法が使われています。

Rのミラーサイトとパッケージのインストール

Rのプログラムをインストールする場合、The Comprehensive R Archive Network (CRAN)にアクセスし、左サイドバーのMirrorsを開いて、ミラーサイトを選択してからダウンロードします。日本のミラーサイトが現時点2024.07.28では山形大学の一か所だけになっています。(なお、アメリカは8か所、中国は10か所あります)。

以前は、統計数理研究所 https://www.ism.ac.jp/ もミラーサイトのひとつでしたが、それが無くなっています。

Rパッケージのインストールは、Rを起動し、パッケージメニューからCRANミラーサイトの設定を開き、ミラーサイトの一覧から、Japan (Yonezawa) [https:]を選択してOKをクリックし、同じくパッケージメニューからパッケージのインストールを選択して、パッケージの一覧から選択してOKをクリックしてインストールします。

スクリプトで同じ作業をするのであれば、以下のスクリプトを順次実行します。

chooseCRANmirror()
utils:::menuInstallPkgs()

ミラーサイトの一覧が表示されるまで少し時間がかかります。

また、chooseCRANmirror()を実行し、ミラーサイトを設定して、install.packages(“パッケージ名”)を実行することでも可能です。

さて、いくつかのパッケージをまとめてインストールしたい場合、以下のRのスクリプトを利用することもできます。この例では、metafor, forestplot, madaの3つのパッケージを続けてインストールします。packneed変数にインストールしたいパッケージ名をコンマで区切って格納します。この部分を目的に応じて書き換えてください。インストール済みのパッケージを参照して新しいパッケージだけをインストールします。url=””の部分が今までは、https://www.ism.ac.jp/ でもよかったのですが、現時点ではミラーサイトではなくなっているので、そのような設定ではパッケージのインストールができない状況です。以下のスクリプトのように、urlの設定を”https://ftp.yz.yamagata-u.ac.jp/pub/cran/”にしてください。

packneed=c(“metafor”,”forestplot”,”mada”);current=installed.packages();addpack=setdiff(packneed,rownames(current));url=”https://ftp.yz.yamagata-u.ac.jp/pub/cran/”;if(length(addpack)>0){install.packages(addpack,repos=url)};if(length(addpack)==0){print(“Already installed.”)}

このスクリプトは、Rのバージョンアップの後、今まで使っていたパッケージをすべてインストールしたい場合などに便利だと思います。

GRADEアプローチのエビデンスの確実性評価:3種類の文脈化

GRADEアプローチにおけるアウトカムごとのエビデンス総体のエビデンスの確実性の評価方法は、システマティックレビュー(SR)、医療技術評価(HTA)と診療ガイドライン(CPG)作成では、異なります。前2者は最小文脈化アプローチMinimally contextualized appproach、または、部分的文脈化のアプローチPartially contextualized approachを用い、CPGでは完全文脈化のアプローチFully contextualized approachを用います。最小文脈化、部分的文脈化のアプローチでは効果推定値が正しいことに対する確信の程度を決めること、完全文脈化では、各アウトカムに対する介入の効果推定値が推奨を支持する適切さに対する確信の程度を決めることが目的です(表1)。

表1.エビデンス総体のエビデンスの確実性評価と文脈化の程度。


エビデンスの確実性とは:GRADEはエビデンスの確実性を、真の効果が特定の閾値の片側あるいは効果量の選択された範囲にある確実性と定義した」(Schünemann HJ 2022)、あるいは、「GRADEワーキンググループは、個々のアウトカムに対するエビデンスの確実性をレーティングするとき、真の効果が特定の範囲にある、または、ある閾値の片側にあることに、我々がどれくらい確かだと思うかを我々はレーティングしているということを明確にしている」(Hultcrantz M 2017)とされています。

文脈化の程度と他のアウトカムの関連、大・中・小の閾値の設定、正味の益の算出、アウトカムの重要度(価値)の設定、確実性のレーティングの標的の関係を表2に示します。

表2. 文脈化の程度と各アプローチの特徴。

GRADEワーキンググループ(WG)は2017年にエビデンスの確実性の概念(costruct)について論文(Hultcrantz M 2017)を発表しました。その後のWGの議論を踏まえて、2021年の論文(Zeng L 2021)では、エビデンスの確実性評価の実際的なガイダンスについて述べています。そのガイダンスでは、エビデンスの確実性の評価者は、エビデンスの確実性の概念の何を評価するのかを明確にする必要があると述べており、それを確実性のレーティングの標的(the target of their certainty rating)と呼んでいます。

そして、確実性のレーティングの標的は、エビデンスの確実性評価の文脈化の程度によって異なり、最小文脈化のアプローチでは無効果あるいは効果ありの確実性、または、効果推定値が無効果を含むある範囲にある確実性が標的になります。部分的文脈化のアプローチでは閾値の片側にある確実性あるいは信頼区間が大・中・小の臨床的意味のある閾値と交差する数が標的になります。完全文脈化ではさらに、正味の益を明確にしたうえで、信頼区間の上限値、下限値でそれが反転するかどうかを見る(Hultcrantz M 2017)、あるいは、望ましくない効果の上限値の総和への影響を見る(Schünemann HJ 2022)ことになります。

完全文脈化のアプローチを用いる場合、前作業として部分的文脈化のアプローチによる各アウトカムに対する効果推定値の確実性の評価を行うことが勧められています。

大・中・小の閾値を設定する際には、絶対効果を用い、アウトカムの重要度を反映する必要があります。閾値はリスク差×アウトカムの重要度(効用値)をスケールとして用います。

図1.閾値の設定

効果推定値の95%信頼区間がこれら閾値といくつ交差するかによって、エビデンスの確実性をレートダウンします。1つの閾値と交差する場合は、1レベルレートダウン;2つの閾値と交差する場合は、2レベルレートダウン;3つの閾値と交差する場合は、3レベルレートダウンが原則です。

図2.閾値と信頼区間の関係とレートダウン。

効果推定値が大の閾値を超えるようなありそうもない大きな効果を示している場合、あるいは、わずかまたは小さな効果の場合に、Review Information Size(RIS)レビュー情報量を計算する必要があります。大・中・小の閾値に対する必要なRIS、すなわちその大きさの効果を証明に必要なサンプルサイズを計算し、その結果で、実際のサンプルサイズが•大きな効果の閾値より少ない ⇒ 3レベルレートダウン;•中等度の効果の閾値より少ない ⇒ 2レベルレートダウン;•小さな効果の閾値より少ない ⇒ 1レベルレートダウンすることが提案されています。ただし、効果推定値の95%信頼区間の大・中・小の閾値との交差と合わせて慎重に判断する必要があります。

OISは臨床的に意味のある効果推定値を証明するのに必要なサンプルサイズ。エビデンスの確実性の評価で、部分的文脈化あるいは完全文脈化アプローチを用いる場合は、大・中・小の閾値を設定する必要があり、それぞれに対する必要なサンプルサイズを計算するので、RISという用語を用いる。OIS: Optimal Information Size最適情報量; RIS: Review Information Sizeレビュー情報量

閾値の設定は困難な課題ですが、次のような情報を根拠とすることが提案されています:
•効用値と絶対効果から閾値を設定している研究を参照する。
•効用値に関する研究を参照する。
•閾値が用いられた診療ガイドラインを参照する。
•疾患専門家や意思決定に関与する利害関係者が何らかの情報(経験、文献情報)に基づいて、効用値を考えながら閾値を設定する。

また閾値を設定は、まずアウトカムの重要度を設定し、その後に行うべきとされています。以下の点に留意する必要があります:
•アウトカムの重要度をエビデンス評価の前に決めておく。
•アウトカムの重要度を決めてから閾値を設定する。
•アウトカムの重要度に関する新知見が得られたら閾値をアップデートする。
•アウトカムの重要度は少なくとも疾患に特異的であり、相対的な値なので、同じアウトカムがどのような疾患でも同じ価値を持つわけではない。また、介入により取り扱うべきアウトカムが異なることもあるので、同じ疾患でも、他のアウトカムの構成によって同じアウトカムでも異なる値を設定することがありうる。0~100(あるいは0~1.0)の値を設定する。

また連続変数アウトカムの場合の閾値の設定に関しては以下の提案がされています:
•大・中・小の閾値に関する経験的推定値がある場合、それを用いる。例:Chronic Respiratory Questionnaire 7ポイントスケールの場合、0.5, 1.0, 1.5; Visual Analogue Scaleの場合6, 10, 14
•Minimally Important Difference (MID)の推定値が得られる場合、それを小さい効果の閾値として用いる。
•標準化平均値差(SMD)を用いて、SMD 0.2, 0.5, 0.8に閾値を設定する。
•何らかの情報に基づく専門家の推定値。

#################################

Hultcrantz M 2017で述べられていた完全文脈化のアプローチのステップは以下の様になります:

1.絶対効果の大きさとアウトカムの重要性の積の総和として正味の益を計算する(Alper BS 2019)。
2.各アウトカムに対する絶対効果の上限値と下限値で正味の益が逆転するかを見る。(逆転の閾値は0または評価者が設定した値)。
3.逆転する場合は、そのアウトカムに対する効果の不精確性をレートダウンし、(他のエビデンスの確実性評価ドメインと合わせて)エビデンス総体のエビデンスの確実性をレートダウンする。

なお、連続変数アウトカムの場合はそのままでは正味の益の計算に含めることはできません。

#################################

Schünemann HJ 2022の論文で述べられている完全文脈化のアプローチのステップは以下の様になります:

0.  部分的文脈化アプローチで各アウトカムに対する効果推定値の不精確性の評価を行う。
1.益のアウトカムに対する効果推定値の95%信頼区間下限値に基づいてありうる最小の望ましい絶対効果量を特定する。
2.害のアウトカムに対する効果推定値の95%信頼区間上限値に基づいてありうる最大の望ましくない絶対効果量を特定する。
3.最小の望ましい効果を集約(aggregate)し、それに基づいて介入を推奨するのに許容しうる最大のありうる望ましくない効果の総和(overall)を決める(必要に応じて費用なども考慮する)。個々の望ましくないアウトカムに対する効果のありうる最大値に基づいて不精確性のレーティングを変更する必要があるかを決めるのにこの総和の閾値を考慮する。複数の望ましくない効果がある場合、これを各アウトカムについて個別に、あるいは集積した上で、行わなければならないことに留意する。
4.望ましくない効果の信頼区間が、許容しうる最大のありうる望ましくない効果の閾値と重なるかどうかを判定する。もし「はい」なら、完全文脈化アプローチの精確性のレーティングは変更されない。益と害のバランスが確実でないかもしれない、すなわち、明確な正味の望ましい健康効果がないため、ガイドライン委員会は通常、条件付推奨とする。
5.閾値が交差しない場合、不精確性に基づく不確実性は決定に影響を与えない可能性があり、正味の望ましい効果があるため、望ましい効果と望ましくない効果に対する不精確性の確実性を下げることは、推奨や決断のために必要ないであろう(これはまれであろう)。そして、総体のエビデンスの確実性が全体として中または高い場合、ガイドライン委員会は多くの場合、強い推奨とする。エビデンス全体の確実性が非常に低いか低い場合、たとえ正味で望ましい効果があったとしても、ガイドライン・パネルは通常、条件付き推奨とする。
注)例を挙げていないが、仮に、部分的に文脈化されたアプローチを用いて、どのアウトカムも不精確性で格下げが行われなかったとしても、すべての望ましいアウトカムまたはすべての望ましくないアウトカムの不確実性の累積が、望ましいアウトカムまたは望ましくないアウトカムの累積効果を不精確にする可能性がある。すべての望ましい結果または望ましくない結果を組み合わせた後の累積不確実性が非常に大きく、信頼区間が閾値を超えるような場合には、1つまたは複数の主要なアウトカムの不精確性を理由とした格下げが正当化される可能性がある。

なお、同論文には部分的文脈化のアプローチのステップも記述されていますので、必要に応じて、参照してください。

#####################################

完全文脈化のアプローチは複雑で、実行も容易とは思えません。各アウトカムに対する効果推定値の95%信頼区間の幅を評価する際に、大・中・小の区切りを閾値として設定するだけの様にも見えますし、大・中・小の閾値の設定はアウトカムの重要度の設定と同じように、個人によって差が出てくるように思えます。また、もともと絶対効果が小さい、あるいは、重要度が低いアウトカムに対する効果推定値の不確実性は、意思決定あるいは推奨に影響しない可能性が高く、エビデンスの確実性の厳密な評価をする意義が低くなると思います。

文献:
Hultcrantz M, et al: The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006 PMID: 28529184

Alper BS, et al: Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. doi: 10.1007/s11882-011-0185-8 PMID: 31167868

Zeng L, et al: GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. J Clin Epidemiol 2021;137:163-175. doi: 10.1016/j.jclinepi.2021.03.026 PMID: 33857619

Schünemann HJ, et al: GRADE guidance 35: update on rating imprecision for assessing contextualized certainty of evidence and making decisions. J Clin Epidemiol 2022;150:225-242. doi: 10.1016/j.jclinepi.2022.07.015 PMID: 35934266

連続変数を二値化したスコアにする:閾値による割合スコア

連続変数を標準化することで、0~1の範囲の値に変換し、異なるアウトカムに関する効果推定値を互いに比較できるようにする方法について解説しました。もし、正規分布に従うことを仮定できるのであれば、閾値を設定して、曲線下の面積を比較することで、効果の大きさを表すことができるはずです。対照に対する介入の正味の益を計算したい場合、二値変数アウトカムと連続変数アウトカムの両方ある場合、連続変数を二値化したスコアにすることで、望ましい効果が得られた、あるいは、望ましくない効果が起きた対象者の割合を表すことができ、二値変数アウトカムと同じように扱えるはずです。そのアウトカムの重要度の設定もやりやすくなるはずです。


例えば、対照群と介入群の平均値と標準偏差から、望ましい値の下限値を閾値として設定すると、介入により、望ましい値の範囲に含まれる対象者の割合の変動を計算することができます。つまり、対照群と介入群の、絶対リスクの値と標準偏差の値が、分かれば、例えば、Rでの関数はpnorm(閾値,平均値,標準偏差)、あるいは、Excelでの関数はNORM.DIS(閾値,平均,標準偏差,TRUE)を用いて計算することができます。

Rのスクリプトであれば、以下の様に記述できます。

S=(1-pnorm(Th,Eik,SDik))-(1-pnorm(Th,Ejk,SDjk))=pnorm(Th,Ejk,SDjk)-pnorm(Th,Eik,SDik)

Excelの式であれば、以下の様になります。

=(1-NORM.DIST(Th,Eik,SDik,TRUE))-(1-NORM.DIST(Th,Ejk,SDjk,TRUE))

すなわち、

=NORM.DIST(Th,Ejk,SDjk,TRUE)-NORM.DIST(Th,Eik,SDik,TRUE)

閾値による割合(PD)スコアは、もし対象と介入の平均値が同じで、標準偏差も同じであれば、0になります。一方、介入の平均値が正常の平均値になれば、ほぼ1になります。あり得る最小値は0、あり得る最大値は1です。*PD: Proportion Difference

スライドの例は、血清アルブミン値のように、値が大きい方が望ましい連続変数アウトカムです。

例えば、HbA1cの様に、値が小さい方が望ましい連続変数アウトカムの場合は、閾値は正常の上限値に設定するか、臨床的に意義のある値に設定し、以下の式で割合(PD)スコアが計算できます。スライドに示す、値が大きい方が望ましい場合の計算で得られた結果の正負を逆にするのと同じ値になります。

Rのスクリプト:
S=pnorm(Th,Eik,SDik)-pnorm(Th,Ejk,SDjk)

Excelの場合:
=NORM.DIST(Th,Eik,SDik,TRUE)-NORM.DIST(Th,Ejk,SDjk,TRUE)

閾値Thは臨床検査の様に基準値が設定されている場合は、それを用いることが考えられます。また、介入により基準値の範囲にまで、改善することではなく、臨床的に意味のある値を、閾値に設定することも考えられます。

閾値を設定して、望ましい値の範囲に含まれる対象者の割合が介入によりどれだけ増加する、あるいは、減少するかをスコアとして示すことで、二値変数アウトカムの場合のリスク差と同じように取り扱うことができます。アウトカムの重要度の設定も相対的な比較がより容易になると考えられます。

標準化で得られる値は、sjk=0.687, sik=0.726, Sij=0.0393と全く異なります。


連続変数に対して閾値による割合(PD)スコアおよび二値変数はイベント率から正味の益を計算するためのExcelの計算表:あくまで参考資料で、完成版ではありません。。いろいろ値を入力して試すのは構いません。

URL: https://info.zanet.biz/lec/srsz/mcda_score_weight/abs_risk_prop.xlsx

(右クリックしてダウンロードして用いてください)