Googleスプレッドシートを使ってPubMedからダウンロードした文献を管理する

前回の投稿「文献管理・選定作業のためのExcelの使用法」では主にMicrosoft Excelを用いる操作について紹介しましたが、Googleスプレッドシートを使っても同じことができます。Googleのアカウントを設定して、GmailやGoogleドライブ使っている人は多いと思います。Excelで作成したファイルをGoogleスプレッドシートでそのまま開くことができます。Chrome BookやiPad、Android OSのタブレットでも動くかもしれません。

ファイルを共有して複数の人が共同で作業するには、OneDrive、Googleドライブ、DropBox、その他のクラウドサービスが使えますが、今回紹介する方法は共同作業に向いているかもしれません。

解説のビデオを作りました。音声なしで、説明がテロップで出てきます。

文献管理・選定作業のためのExcelの使用法

電子ファイル化が進んだ科学論文

現在、科学論文はすべてPDFあるいはHTML形式で電子ファイル化されていると考えられる。さらに、インターネット関連の技術、ウェブ関連の技術が進歩し、読みたい論文を手元に置く必要性が次第に低くなってきていると言える。

医学論文のデータベースとしてPubMed(Medline)、Embase医学中央雑誌などがあり、文献検索はこれらのウェブサイトに接続し、検索式を送信することで、結果を手元に得られる。また、GoogleGoogle ScholarあるいはBingのようなインターネット検索サービスも科学論文を対象にしており、上記の医学文献データベースを介さず検索することも可能である。また、Cochrane Central Register of Controlled Trials (CENTRAL)はランダム化比較試験の研究論文を検索する際には必要となる。

一方フルテキストは各ジャーナルの出版社のサーバに電子ファイルとして置かれており、オンラインで料金を支払えば、すぐ全文を閲覧でき、一部は無料で全文を閲覧できる。Open Accessが拡大するに従い、著者が一定の料金を支払うことで、読者は無料で全文を読める論文が増えてきている。

PubMed検索結果のCSVファイルとしてのダウンロード

PubMedで検索を実行後、引き出された文献リストをCSV形式でファイルとしてダウンロードすることができる。図1に示すように、文献リストの上にあるSaveボタンをクリックし、Selection:をAll results、Format:をCSVに設定して、Create fileボタンをクリックする。通常のファイルを保存するためのダイアログボックスが出てくるので、適当なファイル名をつけて保存する。デフォルトではcsv-検索式からの語句 set.csvのようなファイル名が付けられているので、そのファイル名でよければ、そのまま保存操作を行うこともできる。

ダウンロードが終了するとブラウザーの左下にダウロードしたファイルを開くためのリンクが出てくるので、それをクリックするとExcelがインストールしてあるPCであれば、ファイルをすぐに開くことができる。

図1.PubMedのSave citations to file. 検索結果の全文献の情報をダウンロードするためには、Selection:でAll resultsに設定する。Format:はCSVに設定する。

保存したファイルをExcelで開くと、最初にExcelのファイル形式で保存するようにというメッセージが出るので(図2)、名前を付けて保存ボタンをクリックし、(あるいはファイルメニューから名前を付けて保存)、たとえばxlsx形式で保存しなおす。図3に保存の際のダイアログボックスを示す。

図2.PubMedからダウンロードしたCSVファイルをExcelで開いた状態。
図3.Excelで開いたCSVファイルをxlsx形式で保存する。ファイルの種類(T):でExcelブック(`xlsx)を選ぶ。

このダウンロードしたファイルには、図2の1行目を見るとわかるように、PMID    Title    Authors    Citation    First Author    Journal/Book    Publication Year    Create Date    PMCID    NIHMS ID    DOIの情報が含まれている。

PMIDはPubMedに収載されている文献に付与されているユニークな番号である。PMID番号[uid]あるいはPMID番号[pmid]でPubMedを検索するとその論文ひとつがAbstract形式で表示される。さらに、下記の様にPubMedのURL+?term=PMID番号[uid]をブラウザーのアドレス欄に入力して送信することでもその文献情報を開くことができる。医学中央雑誌(医中誌Web https://demo.jamas.or.jp/)もOpen URLに対応したAPIを公開されるということなので、同じ手法が使えるようになるかもしれない。

DOIはDigital Object Identifierのことで、すべての論文にユニークな番号あるいは記号が付けられ、それをThe DOI® System (https://doi.org/) が管理している。URLとして、https://doi.org/+DOIを入力することで直接その文献情報をブラウザーで開くことができる。PubMed検索結果には、ほとんどの文献にDOIの情報が付けられている。

ExcelでのHYPERLINKの作り方

PubMedからダウンロードした検索結果のデータに、PubMedのデータベースのそれぞれの文献へのリンクとDOIへのリンクを設定して、クリックするだけで、それぞれの情報がブラウザーで開かれるようにすることができる。PubMedではPMIDによってAbstract形式のページが、DOIでは各ジャーナルの出版社のサイトのその論文の情報を開くことができる。

ここで紹介する方法は、マクロあるいはBASICのプログラムは使用しておらず、WindowsでもMacでも動作し、MacではExcelではなくNumbersでも動作する。ブラウザーはWindowsではEdgeあるいはChrome、MacではSafariあるいはChromeで動作する。NumbersでCSVファイルを開く際には、区切りがコンマであることを指定する。

そのためには、ExcelのHYPERLINK関数を利用する。たとえば、以下のスクリプトをセルP2に書き込んであると、セルP2をクリックすると、セルA2にあるPMIDをPubMed側に送信し、PubMedのページが開かれ、そのPMIDの論文がAbstract形式で表示される。図2からわかるように、PubMedからCSV形式でダウンロードしたファイルでは、カラムAにPMIDが含まれている。

=IF(A2<>””,HYPERLINK(“https://pubmed.ncbi.nlm.nih.gov/?term=”&A2&”[uid]”),””)

DOIの場合は、以下のようなスクリプトがセルQ2に書き込んであると、セルQ2をクリックするとDOIのウェブサイトを介して、セルK2のDOI情報から、それぞれの出版社の該当する論文の情報が開かれる。図2からわかるように、PubMedからCSV形式でダウンロードしたファイルでは、カラムKにDOIが含まれている。

=IF(K2<>””,HYPERLINK(“https://doi.org/”&K2),””)

方法1

さて、PubMedからCSV形式でダウンロードしたファイルをxlsx形式で保存した後、著者が作成した、excel_add_link_pubmed_doi.xlsx(https://info.zanet.biz/dl/tools/excel_add_link_pubmed_doi.xlsxからダウンロード可)をExcelで開いて、図4の様にセルL1からセルS2の範囲を選択し、コピー操作(Ctr+C)を行い、PubMedからダウンロードしたファイルの方に戻り、そのセルL1を選択して、貼り付ける(Ctr+V)。貼り付けた状態を図5に示す。

図4.excel_add_link_pubmed_doi.xlsxファイルを開いて、セルL1からS2を選択したところ。
図5.excel_add_link_pubmed_doi.xlsxファイルのセルL1からS2をコピーしてPubMedからダウンロードしたファイルをExcelのxlsx形式にしたファイルのセルL1に貼り付けた状態。2行目の文献情報からPMIDおよびDOIのリンクが作成されている。

次に、セルL2からS2を選択して、コピーし(Ctr+C)、セルL3から下の方へ、文献の数分選択し、貼り付け操作を行う(Ctr+V)。すると、図6のようになる。

図6.文献数分セルL2からS2の内容をコピーして、3行目以下の文献情報を含むすべての行に貼りつけた状態。

方法2

もう一つの方法は、著者が作成した、excel_add_link_pubmed_doi.xlsx(https://info.zanet.biz/dl/tools/excel_add_link_pubmed_doi.xlsxからダウンロード可)をテンプレートとして用いる方法である。このファイルをExcelで開いて、PubMedからダウンロードしたCSVファイルをExcelで開いて、カラムAからカラムKまでの文献数分のセルの範囲をコピーして、テンプレートに戻って、同じカラムAからカラムKの範囲に貼り付ける。このテンプレートのExcelシートでは1000件の文献、すなわち、行1001まで、カラムLからカラムSに必要なスクリプトを入力済みなので、カラムAからカラムKまでデータを貼り付けると即座に図6と同じ状態になる。データを貼り付けたら、別名で保存し、以後の操作を行う。1000件以上の文献がある場合は、セルL2からS2までの範囲をコピーしてセルP1002以下に必要な数分貼り付ける。

また、先にテンプレートのExcelファイルのコピーをフォルダー内あるいはデスクトップ上で作成し、ファイル名を目的に応じて変更して、それを開いて、貼り付け操作を行う方法をとることもできる。

なお、PubMedからダウンロードしたCSVファイルをExcelで開いて、カラムAからKをすべて選択して(カラム名のAからKを左クリックしながら選択する)、テンプレートに戻って、セルA1を選択して貼り付けを実行する方法でも同じ結果が得られる。図7に一例を示す。

この方法2を用いる場合は、あらかじめテンプレートのファイルのコピーを作り、ファイル名を変更し、それを開いた状態で、PubMed検索を行い、CSVファイルのダウンロードが終了したら、ブラウザーの左下に表示されるリンクをクリックし、(Excelがインストールされている場合)、ダウンロードファイルを開き、カラムAからKまでを選択し、テンプレートのコピーに戻り、セルA1を選択して貼り付けを実行(Ctr+V)するのが一番速い方法かもしれない。

図7.PubMedからダウンロードしたCSVファイルをデータをコピー・貼り付けで取り込む。右側が、CSVファイルをExcelで開き、カラムAからKを選択した状態。この状態で、コピー操作(Ctr+C)を行い、右側のテンプレートのコピーのファイルのセルA1を選択して、貼り付け操作(Ctr+V)を行う。結果は図6と同じになる。

Hyperlinkの使い方

PMIDはカラムA、DOIはカラムKの同じ行のセルの値を相対参照してHYPERLINKを設定しているので、カラムのコピー・ペーストあるいはセルのコピー・ペーストで位置関係が変わる場合は、書き直す必要がある。これらのHyperlinkが設定されているセルはそのままクリックすると、ブラウザーで目的の文献情報が開かれるが、セルのスクリプトを確認したい場合は、ShiftキーとCtrキーの両方を押しながら、クリックする。

一度PubMedでその文献情報を開いて、そこからFull textへリンクをたどることもできるし、PubMed CentralにあるFull textへのリンクをたどることもできる。

インターネットに接続された状態で、カラムPのセルをクリックすると、PubMedが開かれ、その行の文献がブラウザーで表示される(図8)。

図8.PMIDからPubMedの該当文献を開いた場合。Abstractまで読むことができる。

また、カラムQのセルをクリックするとその行の論文が出版社のサイトが開かれて表示される(図9)。空欄のセルはDOIが設定されていない論文である。

図9.DOI情報で出版社の該当文献を開いた場合。Full textが公開されている場合、ここで読むことができる。

文献選定作業

このExcelのシートでは、文献の選定作業をサポートするため、評価者が採用、不採用、保留の判定結果を残せるようにしている。カラムLあるいはNのセルは0と入力すると不採用でセルの色はなし、2と入力すると採用でセルの色を緑、1と入力すると保留でセルの色は薄青になる。セルをクリックするとプルダウンメニューが表示されるので、そこから選択することもできるが、直接値を入力することもできる。0, 1, 2以外の値を入力するとエラーメッセージが表示される。

また、選定の理由などをコメントとしてコメント欄に入力することもできる。

選定の判断は、上記のHyperlinkを利用して、文献情報を閲覧しながら、行うことができる。

2名分の評価を入力できるようにしてあるので、評価者2名がそれぞれ選定作業を行い、それを照合することも容易になると考えられる。図10に一例を示す。さらに、Excelのユーザ設定の並べ替えの機能を用いて、評価者1>評価者2 PMID>の優先度で並べ替えを行えば、上の方に選定された文献が集まるはずである。図10に並べ替えのキーの設定の例を示す。それぞれが別ファイルで作業をした場合、文献の順序は変更しないようにし、評価者の該当するカラム、コメントのカラムをコピーして一本化すればいい。

図10.Excelの並べ替えとフィルターを用いて選定作業をサポートする。行番号1の上の部分をクリックして、データ全体を選択した状態で、データメニューをクリックして、中央部分にある並べ替えのボタンをクリックし、図のように、並べ替えの設定を行う。+レベルの追加をクリックして、3つのカラムをキーとして設定し、その優先度は評価者1>評価者2>PMIDとする。
図11.並べ替えの結果。評価者1と2が採用と判定した文献が容易にわかり、連続した行に集めることができる。

書誌情報の取得と利用

カラムRには全著者名を含む書誌情報、カラムSは第一著者のみを含む書誌情報を含んでいる。以下のような形式である。それぞれのセルを選択して、Wordなどに貼り付けることができる。複数のセルを選択して貼り付けることもできる。セルを選択した際には、記述されているスクリプトが表示されるが、コピー・貼り付け操作を行った場合は、内容=文献情報が得られる。

Schmid P, Rugo HS, Adams S, Schneeweiss A, Barrios CH, Iwata H, Diéras V, Henschel V, Molinero L, Chui SY, Maiya V, Husain A, Winer EP, Loi S, Emens LA; IMpassion130 Investigators. Atezolizumab plus nab-paclitaxel as first-line treatment for unresectable, locally advanced or metastatic triple-negative breast cancer (IMpassion130): updated efficacy results from a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol. 2020 Jan;21(1):44-59. doi: 10.1016/S1470-2045(19)30689-8. Epub 2019 Nov 27.

Schmid P, et al: Atezolizumab plus nab-paclitaxel as first-line treatment for unresectable, locally advanced or metastatic triple-negative breast cancer (IMpassion130): updated efficacy results from a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol. 2020 Jan;21(1):44-59. doi: 10.1016/S1470-2045(19)30689-8. Epub 2019 Nov 27.

この形式はPubMedで、CSV形式でダウンロードした場合の形式のままであり、形式を変更したい場合、自分でExcel Visual Basicでプログラムを記述するか、もし一文献ずつの作業でもいいのであれば、PubMedのCiteの機能を利用することもできる。上記のPubMedへのHyperlinkで該当する文献を開き、右の上の方にあるCiteボタンをクリックし、Format:から用いたいフォーマットを選択し、Copyボタンをクリックして、クリップボード経由で得ることができる。現在のところ、以下の5種類のフォーマットが使用可能である。いずれのフォーマットもDOI情報あるいはリンク情報を含めていることが注目される。

NLM

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

AMA

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

APA

Stellon, A. J., Hegarty, J. E., Portmann, B., & Williams, R. (1985). Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet (London, England)1(8430), 668–670. https://doi.org/10.1016/s0140-6736(85)91329-7

MLA

Stellon, A J et al. “Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis.” Lancet (London, England) vol. 1,8430 (1985): 668-70. doi:10.1016/s0140-6736(85)91329-7

NLM

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

最後に

以上述べたように、PubMedからCSV形式で検索結果をダウンロードし、Excelで開き、Excelのさまざまな機能を利用することで、文献選定、文献管理が容易になるであろう。

文献の選定作業を終えたのち、ExcelのシートにPICOおよびコメント欄のカラムを追加して、Abstract tableの作成へと連続的に作業を進めることもできるであろう。

PubMedはE-utilitiesが用意されており、データベースに直接検索式を送信し、結果を直接引き出すことができるように設計されている。この場合は、PubMedのウェブページを開くことなく、検索結果を得られる。著者は、これを利用した、pmSearchというウェブサイト(https://stat.zanet.biz/sr/pmsearch.htm) を開設しているが、各種検索フィルターの利用、検索式作成のサポート、文献選定作業をサポートできるRecordと呼ぶHTMLファイルの作成などの機能を用意してある。興味がある人は試してみていただきたい。