Google GeminiでPubMed Abstract (text)ファイルから臨床に必要な情報を引き出せるか?

前回の投稿で、PubMed検索の結果をテキストファイルとしてダウンロードする際に、FormatをAbstract (text)にして、アブストラクト情報を含める方法を解説しました。タイトルとアブストラクトにはその論文の最も重要な情報が含まれており、特定のクエスチョンに対して回答を得るのに十分な場合も多いと思います。今回は、GoogleのAIであるGeminiを用いて自分が知りたい情報を引き出せるかを試してみます。GeminiのバージョンはGemini 2.5 Flashです。

知りたい情報とは、例えば、すべての論文をまとめた概略、特定の疑問に対する回答、今まで分析された治療薬の一覧、ランダム化比較試験の対象者の属性、採用基準・除外基準に合致するランダム化比較試験のPICOと効果の要約、などいろいろあるでしょう。

今回は、前回用意した大腸憩室炎に対するランダム化比較試験218件のアブストラクトの情報から臨床に必要な情報を引き出せるか試してみますが、Abstractを含むテキストファイルはかなりの大きさになるので、まずGeminiで扱える情報の大きさを調べてみましょう。

AIでは、取り扱える情報の単位をトークンと呼び、Google Geminiの無料版の場合、1チャットあたり3.2万トークンに制限されています。この制限はコンテキストウインドウと呼ばれます。英語の場合、1トークンは約0.75ワード、日本語の場合は約0.6ワードに相当するそうです。従って、英語の場合32000×0.75=24,000語、2.4万語が限界ということになります。この容量はプロンプトや回答の分も含め、また、続けてプロンプトを実行させる場合はそれらとそれらのプロンプトと回答も含めるということなので、解析対象のテキストファイルのワード数はもっと少なくする必要があります。Geminiで左上にあるチャットを新規作成をクリックして新たにチャットを開始するまでは、加算されていきますので、一連のプロンプトを実行する場合かなり余裕を持って小さめのファイルにする必要があり、PubMed検索結果を対象にするような場合は、無料版のGeminiでは実用的なレベルで使用するのは難しいでしょう。

Googleの提供するNotebookLMでは、アップロードした情報ソースに対してAIで処理ができ、テキストファイルもアップロードできます。1ソースあたり、200MB、50万語、1ノートブックあたり、ソース数50個、ファイルサイズ・単語数は制限なしなので、NotebookLMを使って、同じことができる可能性がありますが、今回はGeminiを使ってやってみます。

今回の大腸憩室炎に対するランダム化比較試験218件のアブストラクトのテキストファイルの大きさは、文献数:218ですが、ファイルサイズ:508KB、ワード数:68,445 、文字数:519,222でした。このサイズは、無料版Geminiでは取り扱える範囲を超えています。Google Workspace Business Standardエディションなどの有料版では、容量が3.2万トークンから100万トークに容量が増えます。NotebookLMで使えるファイル数などもずっと大きくなり、Googleドライブも2TBまで使え、Google Meetなどの機能拡張もあるので、自分はこのGoogle Workspace Business Standardエディションを使っていますので、100万トークン、約70万語の容量まで利用可能です。

以下に述べるトライアルは2025年12月6日の時点での結果です。思考モード(3 Pro搭載)を使うこともできますが、高速モードを用いていますので先に述べたように、Gemini 2.5 Flashを使っています。まず、Geminiへのプロンプトを入力のフィールドにアブストラクトのテキストファイルをドラグアンドドロップします。ワード数が訳6.8万なので、問題なくアップロードできます。(ファイルが大きすぎる場合はアラートが出ます。)それに続けて、以下のプロンプトを書き込み、今までどのような抗生物質がテストされてきたかをまず調べます。

ソースのテキストファイルからランダム化比較試験で効果が分析された薬剤の一覧を作成してください。薬剤名は原文のままで構いません。

プロンプトを書き込んで、エンターキーを押すか右向き矢じりをクリックした結果の最初の部分を以下の図に示します。

この場合は、Googleスプレッドシートにエクスポートのボタンが表示されたので、それをクリックして、Googleスプレッドシートにエクスポートし、ファイル名を書き換えたのが以下の図です。このように、最初にどのような治療法が分析対象になっているかを確認することができます。スプレッドシートに出力したい場合、追加のプロンプトで”表をスプレッドシートにエクスポートできるように作成してください。”と書くことで、CSVファイルとして保存できるデータが出力されるので、これをテキストエディタにコピーして貼り付けて.csvの拡張子で保存し、そのファイルをGoogleスプレッドシートやExcelでインポートする方法が使えます。

また、Geminiは注記として、以下の説明を出力しました。

Abstractの情報に基づいているので、必ずしもすべての抗菌薬の名称が明らかになるわけではありませんということです。

試しに、Levofloxacinの効果について聞いてみることにしました。PICO要約表を作成するように指示しており、採用基準と除外基準を設定して、ランダム化比較試験に限定するよう指示しています。このプロンプトは採用基準と除外基準を書き換えることで、プロトタイプとして、他のクエスチョンにも使えるはずです。

ソースのテキストファイルから、以下の採用基準と除外基準に合致する文献を抽出して、Study ID、P、I、C、O、コメント、PMIDの7列からなる表を作成してください。
Study IDは第一著者の姓のフルスペル+半角スペース+イニシャル+半角スペース+年度を記述してください。
Pの欄は対象者に関する記述(症例数)、Iの欄は介入に関する記述(症例数)、Cの欄は対照の治療に関する記述(症例数)、Oの欄は測定されたアウトカムの内容を記述してください。
コメント蘭は効果の概略を記述してください。
PMIDの欄はhttps://pubmed.ncbi.nlm.nih.gov/PMID/のように、クリックしたらPubMedの該当する文献を開けるようなリンクのURLを記述してください。
P, I, C, Oの欄は他の研究との違いが分かる程度の詳細な情報を含めてください。研究は年度の新しい順に並べ、Googleスプレッドシートへエクスポートできる形式で提示してください。
採用基準:
研究デザインはランダム化比較試験。
対象は成人の大腸憩室炎の患者。
介入がLevofloxacin。
対照がプラセボあるいは無治療あるいは保存的治療。
治癒をアウトカムとして分析。
除外基準:
システマティックレビュー/メタアナリシスの論文は除外する。
対象が小児患者は除外する。

当然のことながら、Levofloxacinを治療薬として使用しているランダム化比較試験は見つからないと回答し、使用された抗生物質をリストアップして、「介入がLevofloxacin」という基準を除外し、「抗生物質群と無抗生物質(または非観察的/非手術的)群を比較した成人非合併大腸憩室炎を対象とするランダム化比較試験(RCT)」を抽出した参考情報として表が出力されました、と回答しています。表の部分ををCSVファイルとして保存し、さらにGoogleスプレッドシートにインポートして形式を整えた画面が以下の図です。

IとCの部分を見ると、介入Iの方が抗生物質なしになっており、対照Cの方が抗生物質治療になっており、非劣性試験も含まれています。結果は、少なくとも軽症の急性憩室炎では、抗生物質は観察的治療と比べ差がないことが示されています。これだけからも、大腸憩室炎に対して抗生物質による治療が必要ないということが最近の潮流ではないかということがうかがい知れます。

PMIDの部分のURLをクリックするとPubMedでその文献のアブストラクトが表示されるので、それぞれのアブストラクト情報を確認することができます。

さらに、診療ガイドラインの情報が含まれているか聞いてみました。

ソースに診療ガイドラインは含まれていますか?

AGAのアップデート、ドイツ消化器病・代謝疾患学会およびドイツ一般・内臓外科学会の憩室疾患に関するガイドライン、デンマークの治療ガイドライン、オランダ社会のガイドラインが引用され、SAGES ホワイトペーパーについて次のように記述されていました:SAGES ホワイトペーパー これは、抗生物質の非ルーチン使用に関するエビデンスをレビューし、安全な実施方法を検討したものです 。

さらに、また、治療アルゴリズムや伝統的なパラダイムの変化を議論し、臨床的推奨に影響を与える以下の文献も含まれています、との記述が続き、文献が引用されていました。そして、これらの文書は、大腸憩室炎の診断、内科的・外科的治療、および再発予防に関する従来の慣行が変化していることを示しており 、特に非合併急性憩室炎に対する抗生物質の非ルーチン使用が最新の推奨事項であることを裏付けています、との記述がありました。

これらの回答から、大腸憩室炎に対して抗生物質をルーチンで投与することは必要ないことが分かってきます。そこで、対象者について以下のプロンプトでさらに確認してみましょう。

抗生物質非ルーチン使用の対象となる大腸憩室炎患者の条件は?

抗生物質の非ルーチン使用(すなわち、抗生物質を投与しない観察的治療)の対象となる大腸憩室炎患者の条件は、主に非合併急性憩室炎(AUD)の患者です 、との回答に続き、憩室炎のタイプ、免疫状態・全身状態、画像診断による評価について詳細が示され、さらに、非推奨/注意が必要な患者(抗生物質が推奨される場合)について回答が続きます。そして、最後に治療パラダイムの変化の解説がありました。

218件の文献のアブストラクトを全部読む時間と労力に比べると、あっという間にこのような情報が得られます。

今回Geminiの回答が正確かどうかについて確認するひとつの方法として、診療ガイドラインを参照することが考えられます。AGAの診療ガイドラインの論文についてPMIDをGeminiに聞いて、その論文を見てみることにします。この論文です: Peery AF, Shaukat A, Strate LL: AGA Clinical Practice Update on Medical Management of Colonic Diverticulitis: Expert Review. Gastroenterology 2021;160:906-911.e1. doi: 10.1053/j.gastro.2020.09.059 PMID: 33279517

この論文のアブストラクトには”Antibiotic treatment can be used selectively rather than routinely in immunocompetent patients with mild acute uncomplicated diverticulitis. Antibiotic treatment is strongly advised in immunocompromised patients.”と明確に書かれており、Geminiの回答は正確であると言っていいと思われます。また、この論文のPubMedのアブストラクトのページには、Full text linksもあるので、必要ならさらに全文を目を通してGeminiの回答が正しいかを確認することもできます。

最後に、「抗生物質非ルーチン使用の対象となる大腸憩室炎患者の条件は?」に対するGeminiの回答の詳細を提示しておきます。

かなり詳細な情報なので、実際の症例に抗生物質を投与すべきかどうかの判断に使えると考えられます。

今回の例から、PubMedの検索結果からランダム化比較試験のアブストラクト情報を得て、Geminiを利用することで、極めて短時間で臨床に必要な情報が得られることが分かりました。また、PICO要約表を作成することもできるので、システマティックレビュー/メタアナリシスの文献選定にも使える可能性があることが分かりました。

PubMed検索でMeSH?

PubMedに収載されている文献にはMedical Subject Headings (MeSH)医学主題見出しが複数付けられていて、MeSHだけを検索対象にすることもできます。検索語句と検索語句[MeSH Terms]をORで組み合わせて検索することで、漏れを少なくすることができます。MeSHは同じ概念が異なる言葉で表現されていても、それらをすべてカバーできるようにするために設定されています。

なお、検索語句だけの場合と検索語句[tw]、すなわち[Text Word]を付ける場合では、検索語句だけの場合は、[All Fields]として扱われるため、ヒット件数が多くなります。[tw]を付けると、タイトル、アブストラクトMeSH用語のテキスト部分が対象になり、著者名やジャーナル名は対象外になり、ヒット件数は少なめになります。2語以上の語句の場合、ダブルクォーテーションで囲むと一体として検索されるので、ヒット件数は少なめになります。

PubMed検索では必ずMeSHを確認した上で、検索式を作成する必要がありますが、そのためにMeSH Databaseを検索することはかなりの熟練が必要でしょう。MeSH Databaseでは、自分が検索したい語句のMeSHを確認し、さらにさまざまな語句・用語の階層構造を確認することができます。しかし、MeSH Databaseでどのような用語があるかを確認しなくても、自分が欲しいと思っている文献にどのようなMeSHが付けられているかを確認するだけで十分な場合も多いでしょう。システマティックレビュー/メタアナリシスの場合、類似した複数の研究をまとめるので、その中の一つでも分かれば、その研究の文献で使われているMeSHを確認して、検索式に入れることができます。

PubMedで一つの文献を選択して、MeSHを確認する方法について解説します。

例として、大腸憩室炎の治療について、ランダム化比較試験を調べたいとします。colonic diverticulitisという用語は知っているので、そのランダム化比較試験を検索してみます。

検索式の作成が簡単にできるので、ウェブツールであるpmSearchを使ってみます。colonic diverticulitisと入力し、Publication type:でRandomized controlled trialにチェックを入れます。Subjects:はHuman、LanguageはEnglish/Japanese、アブストラクトのある論文に限定したいので、Abstrac:はWith abstractにチェックを入れアブストラクトのある文献に限定します。

中央下のテキストエリアに検索式が書き出されるので、その下のSearch in PubMedボタンをクリックします。

PubMedが開かれ、検索結果が表示されますので、自分の目的に合う論文があったら、そのタイトル部分をクリックします。

アブストラクトが表示されますが、その上にSaveボタンがあるのでそれをクリックします。

すると、その下にSave citation to fileの設定画面が現れるので、FormatからPubMedを選択します。

その上で、Create fileボタンをクリックします。

すると、ブラウザでダウンロードの表示が右上の方に出てきます。通常ファイルとして保存する場合は、名前を付けて保存をクリックしますが、ここでは、開くボタンをクリックします。

これにより、メモ帳のようなテキストエディターでその文献の内容がPubMed形式で開かれます。PubMed形式の場合、MH -が付いている部分がMeSHなので、ここで自分が探したい文献に付いているであろう、MeSHを確認することができます。このやり方はファイルをダウンロードする必要が無いところが便利だと思います。

今回の例では、MHのひとつに、Diverticulitis, Colonic/blood/*drug therapy/surgeryと書かれていました。大腸憩室炎が主題で、サブヘディングとしての血液検査、主要トピックとしての薬物療法、サブヘディングとしての外科的治療に言及する内容が含まれているということが示されています。なお、このテキストをそのまま[Mesh Terms]というタグを付けても検索はできません。また、/以下の語句についてはMeSHの階層構造を表しているわけではありません。

例えば、”Diverticulitis, Colonic/blood”[MeSH Terms]、”Diverticulitis, Colonic/drug therapy”[Majr]、”Diverticulitis, Colonic/surgery”[MeSH Terms]はそれぞれ検索できます。なお、Diverticulitis, Colonic/blood[MeSH Terms]と検索語をダブルクォーテーションで囲まなくてもほぼ同じように動作しますが、Auto Term Mapping (ATM)が作動して検索範囲が広がる可能性があります。ダブルクォーテーションで囲った場合は、MeSHインデックスに正確に「Diverticulitis, Colonic/blood」が付与されている論文だけがヒットします。また、主要トピック(/の左側にある)との組み合わせ無しで、サブヘディングだけを横断的に検索することはできません。

また、MeSHとして検索を指定したい場合、[MH]と[MeSH Terms]は実質的に同じように動作しますが、[MH]は古い表記だそうです。[Majr]はMajor Topi主要テーマとして付与された論文のみを検索します。

1件の標的文献のMeSHをこのようにして確認することで、検索式を組み立てる際の参考にすることができます。

例えば、クエスチョン
P: 成人の大腸憩室炎
I: 抗菌薬投与
C: プラセボまたは保存的治療
O: 治癒
D: ランダム化比較試験

についての文献をできるだけ包括的に集めたいと考えた場合、Cochraneのランダム化比較試験用の感度最大化の検索フィルターを組み合わせ、以下のような検索式で、言語は英語、日本語に限定して検索すると218件ヒットしました。Cochraneのランダム化比較試験用の検索フィルターはpmSearchの右サイドバーでFilter:から選択できます。検索式にはPの要素をORで結合、Iの要素をORで結合、こられと言語のフィルターと検索フィルターをANDで結合しており、Oの要素は含めていません。

(Diverticulitis, Colonic[MH] OR colonic diverticulitis) AND (Anti-Bacterial Agents[MH] OR antibiotics) AND (english[la] OR japanese[la]) AND hasabstract[tw] AND (randomized controlled trial [pt] OR controlled clinical trial [pt] OR randomized [tiab] OR placebo [tiab] OR drug therapy [sh] OR randomly [tiab] OR trial [tiab] OR groups [tiab])

PubMedの検索結果は、Abstract (text)形式でテキストファイルとして保存します。hasabstract[tw]をANDで組み合わせているので、アブストラクトのない論文は除外されています。

検索結果の画面で、上の方にあるSaveボタンをクリックし、Save citation to fileでSelectionをAll results、FormatをAbstract (text)に設定して、Create fileボタンをクリックして、名前を付けて保存で、ファイル名を付けて保存します。Abstract (text)形式では、以下のような内容を含んでいます。PubMed形式とほぼ同じ内容ですが、PubMed形式のようなタグ(フィールド名)は付いていません。各論文の最初は通し番号が振られ、Abstractは1行ごとに改行が入っています。

1. Gastroenterology. 2021 Feb;160(3):906-911.e1. doi: 10.1053/j.gastro.2020.09.059. 
Epub 2020 Dec 3.

AGA Clinical Practice Update on Medical Management of Colonic Diverticulitis: 
Expert Review.

Peery AF(1), Shaukat A(2), Strate LL(3).

Author information:
(1)University of North Carolina, Chapel Hill, North Carolina. Electronic 
address: anne_peery@med.unc.edu.
(2)University of Minnesota, Minneapolis, Minnesota.
(3)University of Washington, Seattle, Washington.

Colonic diverticulitis is a painful gastrointestinal disease that recurs 
unpredictably and can lead to chronic gastrointestinal symptoms. 
Gastroenterologists commonly care for patients with this disease. The purpose of 
this Clinical Practice Update is to provide practical and evidence-based advice 
for management of diverticulitis. We reviewed systematic reviews, meta-analyses, 
randomized controlled trials, and observational studies to develop 14 best 
practices. In brief, computed tomography is often necessary to make a diagnosis. 
Rarely, a colon malignancy is misdiagnosed as diverticulitis. Whether patients 
should have a colonoscopy after an episode of diverticulitis depends on the 
patient's history, most recent colonoscopy, and disease severity and course. In 
patients with a history of diverticulitis and chronic symptoms, alternative 
diagnoses should be excluded with both imaging and lower endoscopy. Antibiotic 
treatment can be used selectively rather than routinely in immunocompetent 
patients with mild acute uncomplicated diverticulitis. Antibiotic treatment is 
strongly advised in immunocompromised patients. To reduce the risk of 
recurrence, patients should consume a high-quality diet, have a normal body mass 
index, be physically active, not smoke, and avoid nonsteroidal anti-inflammatory 
drug use except aspirin prescribed for secondary prevention of cardiovascular 
disease. At the same time, patients should understand that genetic factors also 
contribute to diverticulitis risk. Patients should be educated that the risk of 
complicated diverticulitis is highest with the first presentation. An elective 
segmental resection should not be advised based on the number of episodes. 
Instead, a discussion of elective segmental resection should be personalized to 
consider severity of disease, patient preferences and values, as well as risks 
and benefits.

Copyright © 2021 AGA Institute. Published by Elsevier Inc. All rights reserved.

DOI: 10.1053/j.gastro.2020.09.059
PMCID: PMC7878331
PMID: 33279517 [Indexed for MEDLINE]

Conflict of interest statement: Conflicts of Interest: All authors have no 
relevant conflicts to report.

ダウンロードしたテキストファイルをGoogle GeminiやGoogle NotebookLMにアップロードして、これらのAI機能を使った様々な利用が考えられます。