Living Systematic Review (SR)

Living systematic review (SR) ”生きたシステマティックレビュー”と称する論文があります。特に、最近はCOVID-19に関するSRがLiving SRとして発表されているのをみかけます。Livingなので、今後変わりうるという意味を含んでいます。SRなので、そのリサーチクエスチョンあるいは、クリニカルクエスチョンに関する新しい論文が発表されたら、それを追加してSRを更新updateして新しい論文として発表することになります。変更が小さい場合は、追加分だけ発表されることもあります。

実際の例を見てみましょう。Siemieniuk RA, et al: Drug treatments for covid-19: living systematic review and network meta-analysis. BMJ 2020;370:m2980. doi: 10.1136/bmj.m2980 PMID: 32732190は2020年7月30日にBMJに発表された論文で、タイトルにLiving systematic reviewという言葉が含まれています。この論文をPMIDからPubMedで開くと、Abstractは表示されず、下の方に、Update in となっていて、2020年7月30日以降に更新された論文が表示されます。この例では、2020年9月11日、2020年12月17日のアップデート、そして最新のアップデートが2021年3月31日です。これらのリストの下に、2020年7月30日の論文のAbstractが示されます。アップデート版のリンクを開くと、この論文の場合は、Abstractは表示されません。そして、Update ofという見出しの下に、古い論文のリンクが表示されます。Update inとUpdate ofに注意する必要があり、もしUpdate inの見出しがあったら、アップデート版があるので、そちらを見る必要があるということがわかります。

この例で分かるように、Living SRはPubMedでの取り扱いが通常のSRの論文とは異なっており、検索した結果からアップデートがある場合あるいは古い版がある場合は、それがわかるようになっています。

CochraneのSRもPubMedで検索できますが、例えば、Piechotta V, et al: Convalescent plasma or hyperimmune immunoglobulin for people with COVID-19: a living systematic review. Cochrane Database Syst Rev 2020;7:CD013600. doi: 10.1002/14651858.CD013600.pub2 PMID: 32648959は2020年7月10日の出版で、Update inと表示され、そちらをクリックするとAbstractも表示されます。そして、第一著者がChai KLに変わっています。

さて、Living SRがどのようなものかについては、Elliott JHらが2014年に論文を発表しているので、それが参考になります。Elliott JH, et al: Living systematic reviews: an emerging opportunity to narrow the evidence-practice gap. PLoS Med 2014;11:e1001603. doi: 10.1371/journal.pmed.1001603 PMID: 24558353
出版形式、作業プロセス、著者チームのマネージメント、メタアナリシスの更新において、従来のSRとはいろいろな点で異なっています。現在のICTを活用して、迅速にアップデートを行い、迅速に出版するというのが特徴と言えます

Living SRに関連した事項として、Rapid recommendationEvidence ecosystemなどがあります。

BMJは2016年にRapid recommendationに関する論文を発表しています。Siemieniuk RA, Agoritsas T, Macdonald H, Guyatt GH, Brandt L, Vandvik PO: Introduction to BMJ Rapid Recommendations. BMJ 2016;354:i5191. doi: 10.1136/bmj.i5191 PMID: 27680768

BMJはMAGICappと協働し、RapidRec projectを推進しているようです。MAGICappの活動は、診療ガイドラインだけでなく、Evidence ecosystem、Rapid recommendationと深いかかわりがあります。

また、Evidence ecosystemについては、上記のElliot JHらの論文や、下記のBoutron Iらの論文、Gough Dらの論文が参考になります。

Boutron I, et al: The COVID-NMA Project: Building an Evidence Ecosystem for the COVID-19 Pandemic. Ann Intern Med 2020;173:1015-1017. doi: 10.7326/M20-5261 PMID: 32931326

Gough D, et al: Clarifying differences between reviews within evidence ecosystems. Syst Rev 2019;8:170. doi: 10.1186/s13643-019-1089-2 PMID: 31307555

Six persistent research misconceptions

Modern Epidemiology*の著者の一人である、Rothman KJは2014年に”研究における持続する6つの誤解”というタイトルの論文を発表しています(Rothman KJ: Six persistent research misconceptions. J Gen Intern Med 2014;29:1060-4. doi: 10.1007/s11606-013-2755-z PMID: 24452418

以下にそれを紹介します。ここに書いたことは短いまとめなので、これだけを読むと、さらに誤解をする人がいるかもしれません。原文をじっくり読んでいただきたいと思います。

誤解1. 研究デザインには階層があり、ランダム化比較試験が最も妥当性が高く、次にコホート研究が続き、症例対照研究は最も信頼性が低い。  

深く考えずに、高い妥当性を研究デザインの階層に帰するのは間違いである。

「研究デザインのみに基づいて結果の妥当性を判定することは、すべきではないという意味であって、研究デザインを明確にすることが不要であるという意味ではない。ランダム化比較試験であっても、バイアスの大きな研究の妥当性は低くなることに異論はないであろう。」

 誤解2. 研究から妥当性の高い一般化を行うために必須の要素は、研究対象者が標的集団の代表的サンプルで構成されていることである。

  科学的な一般化generalizationと統計学的外挿extrapolationは異なる。科学的一般化は自然現象について正しい声明を作るプロセスである。

「例えば、動物実験では、単一種を用いて、要因曝露や治療の効果をとらえやすくできる。ヒトを対象にした研究でも、効果を証明するために、対象者が限定された研究の結果でも、共変量を調整したうえで異なる集団に一般化したり、個人に適用する場合には、価値観による調整も行ったうえで、結果を適用することは可能である。そのさいに、数理統計学的モデルは手助けしてくれるが、必ずしも絶対的な基準とはならない。」

誤解3. もし回帰モデルで、2つの因子の積が統計学的に有意でなければ、これらの因子の間に生物学的な相互作用はない。

  統計学的交互作用と生物学的相互作用は異なる。生物学的相互作用は2つまたはそれ以上の原因が同じメカニズムに作用し、相互に依存関係がある効果を持つことである。2つの原因となる因子が同時に作用した場合、個別の作用の合計とは異なる効果になる場合、生物学的相互作用がある。生物学的相互作用は必ずしも統計学的交互作用としてとらえられないこともあり、用いられるモデルや測定尺度の影響を受ける。 

誤解4. 連続変数を分類するとき、分類のカットポイントに分布の4分位あるいは5分位のようなパーセントによる境界を用いることは妥当な方法である。

  ひとつには、パーセンタイルによる境界値は生物学的な意義のある変化が起きる値とは異なり、二つ目には、パーセンタイルに基づく境界値は研究間で異なるので、必ずしも妥当な方法ではない。  

誤解5. 常に、多重比較で調整されたP値または信頼区間を報告すべきである。

  多重比較のType I errorを減らすための調整はType II errorの増加を伴い、本当は差があるのに、差がないという結論を出す可能性が高くなる。生物学的データを解析する場合、すべてがランダムな値であるという前提よりも何らかの差があることが前提の場合が多い。機械的に多重性の調整を適用する前に、事前情報から事前分布を想定することが必要である。ベイジアンアプローチを用いることがより防御的な方法である。

「ゲノム解析のような場合は、ランダムな配列を前提とするので、多重比較の調整を行うことに妥当性があるが、治療効果に真に差がある場合には、Type II errorが起きうるが、Type I errorは起こらない。解析の文脈が重要になる。もし、ベイジアンアプローチを用いれば、その研究までの事前情報に基づいて、事前分布を設定することができるので、多重比較によるType I errorが起きにくくなる。」

誤解6. 有意差検定はデータの解釈に有用で重要である。

  理想的には効果量effect sizeの大きさを推定し、それを歪める可能性のあるエラーを分析する必要がある。交絡のような系統的なエラーは分析的な方法(多変量解析の共分散の調整など)で対処でき、測定過誤あるいは選択バイアスは感度分析(バイアス分析と呼ばれる)で対処することができる。P値また信頼区間に無効果の値が含まれるかだけで結果を評価することは、研究結果の誤解を招く可能性がある。

*なお、Modern Epidemiologyの第3版は2018年に出版されていますが、第4版が2021年に出版されました。

**「」内は投稿者の意見です。

「全体として、統計学に対する誤解、生物学的な現象を深く考えることの軽視、臨床的な現象や臨床的な文脈の軽視、方法論に拘束された柔軟な思考の喪失、人の体験の全情報を測定することはできずいくつかのアウトカムに対する効果を見ているにすぎないことに対する認識の低さ、などがこれら誤解の背景にあると思います。」

NCQA-HEDISと医療のパフォーマンス

NCQAはアメリカのNational Committee for Quality Assurance国立品質保証委員会のことで、そのミッション:ヘルスケアの質を向上させること、ビジョン:より良いヘルスケア、より良い選択、より良い健康、だそうです。HEDISはNCQAの一部で、HEDISはHealthcare Effectiveness Data and Information Setヘルスケア有効性データおよび情報セットで、最も広く用いられているヘルスケアの改善ツールだそうです。

NCAQのプログラムは、1. Health Care Providers & Practices, 2. Health Plans & Other Organizations, 3. Data & Information Technologyがあり、3にはHealth Information Technology Prevalidation Programs, Digital Measurement Community, Telehealth – Taskforce on Telehealth Policyなど多数のプログラムがあります。

HEDISでは医療のパフォーマンスの測定を1.ケアの有効性 Effectiveness of Care、2.ケアのアクセス/可用性 Access/Availability、3.ケアの体験 Experience of Care、4.利用およびリスクで調整した利用 Utilization and Risk Adjusted Utilizatoin、5.健康プランの記述的情報 Health Plan Descriptive Information、6.電子的臨床データシステムを用いて報告された測定項目 Measures Reported Using Electronic Clinical Data Systemesの6つのドメインに分類される90の測定項目から行います。

例えば、ケアの有効性のドメインには、Prevention and Screening, Respiratory Conditions, Cardiovascular Conditions, Diabetes, Musculoskeletal Conditions, Behavioral Health, Medication Management and Care Coordination, Overuse/Appropriateness, Measures Collected Through the Medicare Health Outcomes Survey, Measures Collected Through the CAHPS Health Plan Surveyの項目があり、それぞれの項目の下にさらに多くの項目が含まれています。

例えば、Overuse/Appropriatenessの下位には、Non-Recommended Cervical Cancer Screening in Adolescent Femalesという項目があります。16-20歳の女性を対象に、不必要な子宮頸癌のスクリーニング検査を受けた割合を測定項目としており、なぜそれが問題なのかについては、子宮頸癌のスクリーニング検査は益benefitsより害harmの方が多い。思春期の女性は一過性のHPV感染が多く、子宮頸部の病変は自然消退する、したがって、偽陽性が多いので、不必要で有害な可能性のあるフォローアップ検査と治療を招くことになる、と述べられています。

さて、2021年3月に発表されたJaklevic MCらの論文は、便潜血反応(Fecal Immunochemical Test, FIT) が陽性の場合、大腸鏡検査までどれくらい間隔があいても不利益を被らないか?について論じています。この中で、HEDISの影響の大きさについて記述があります。もし、医療のパフォーマンスの測定項目にFITが陽性の場合、例えば、6か月以内に大腸鏡を受けた患者の割合を追加すると、大腸癌による死亡が減少することが期待できるかもしれない。

Jaklevic MC. The Push for Timely Follow-up After Abnormal At-home Colon Cancer Screening Results. JAMA. 2021 Mar 31. doi: 10.1001/jama.2021.2018. Epub ahead of print. PMID: 33787816.

Quality Indicator (QI)などとの関係も含め、HEDISの活動には今後も注目する必要がありそうですが、データの規模・正確さ、取り扱う医療の範囲、スピードなど様々な点で、HEDISのアプローチは優れているように思えます。また、”ビッグデータ”とも関係があります。HEDISのウェブページにはLATEST HEDIS VIDEOSがあり、多数のビデオがアップされています。

EBM crisis?

MGICappのウェブサイトPublicationsのタブを開くと、Vandvik Pの2016年のGuidelines International Network (G-I-N)における”The Evidence Ecosystem”と題する発表のビデオがあり、その2分6秒(2:06)で取り上げられている論文が、2014年のGreenhalgh TらのBMJに発表された論文です。タイトルは”Evidence based medicine: a movement in crisis?”です。7年前の論文ですが、「Evidence based medicineは多くの利点があったが、いくつかの意図されなかった負の結果があった」ことが述べられています。

Crisisとして挙げられているのは、次のようなことです:
・エビデンスに基づいた「品質マーク」が既得権益者に悪用されている。
・エビデンスの量、特に臨床ガイドラインの量が多すぎて参照しきれなくなっている。
・統計的に有意な利益は、臨床現場ではわずかmarginalなものかもしれない。
・融通の利かないルールやテクノロジーを駆使したプロンプトは、患者中心ではなくマネージメント主導のケアを生み出す可能性がある。
・エビデンスに基づくガイドラインは、複雑な多臓器疾患にはうまく対応できないことが多い。

次に、☆Real evidence based medicine(真のEBM)は次のようなものであると述べています:
・患者の倫理的なケアを最優先事項とする。
・臨床家と患者が理解できるフォーマットで個別化したエビデンスを求める。
・機械的な規則に従うことではなく専門家の決断により特徴づけられる。
・意味のある対話を通して患者と決断を共有する。
・臨床家-患者の強い関係とケアの人間的側面の上に構築する。
・エビデンスに基づく公衆衛生にはコミュニティーレベルでこれらの原則を適用する。

そして、☆真のEBMを提供するためのアクションとしては以下のものが挙げられています:
・患者はより良いエビデンス、より良い提示、よりよい説明、そしてより個別化した方法で適用されることを要求すべきである。
・臨床研修は文献検索と批判的吟味を超えた、専門家としての判断と協働意思決定Shared Decision Makingへ進むべきである。
・エビデンスサマリー、診療ガイドライン、意思決定支援ツールの作成者は利用者、目的、制約を明確にすべきである。
・出版者は研究が方法論的水準だけでなく利用しやすさusabilityの水準を満たすことを要求すべきである。
・政策決定者は既得権益者によるエビデンスの手段としての生成と利用に抵抗すべきである。
・独立した資金提供者が質の高い臨床的および公衆衛生のエビデンスの創生、統合、配布を形成することがますます必要である。
・研究計画はより広範で、より学際的で、疾患経験、エビデンスの解釈に関する心理学、臨床家と患者の交渉とエビデンスの共有、過剰診断による害の予防法を取り込むべきである。

そして、”真のEBMは個々の患者のケアを最優先事項とし、これらの状況下で、その疾患あるいは病態のこの時点で、何がこの患者のための最善の一連のアクションか、を問うものである”。”そのためには、エビデンスはその患者のために個別化されなければならない。適切なケアの決断は最善の(平均としての)エビデンスとは異なるかもしれない”と述べています。

この点ではDecision science, Multi-criteria decision analysis (MCDA)、Shared Decision Makingの理解と実践スキルが求められていると思います。

Comparative Effectiveness Research比較効果研究の必要性も関連してきます。

臨床研修はルールに従うことから、方向を変える必要があることも主張されています。”基礎的な数量リテラシーnumeracy、データベース検索、研究に対してシステマティックに質問できる能力を含む批判的吟味のスキルはEBMのコンピテンスの前提であり、臨床家はこれらを実際の患者に適用する必要がある”ということも述べられています。

最後に、☆真のEBMのためのキャンペーンとして、過剰医療への対策、すべての臨床研究の登録、医学研究おける無駄の低減、出版の水準の改善、統合化された医学教育が挙げられています。

2014年の論文なので、この論文で指摘された問題や課題は、今2021年の時点では、その後、解決されたり、解決に向かって進みつつあるものもあるでしょうし、2014年の時点ではまだわからずその後新たに出てきた問題や課題もあるでしょう。

MAGICappは、いまだ解決されていない課題に応えようとする活動のひとつのようですが、解決法はひとつではないでしょう。