文献管理・選定作業のためのExcelの使用法

電子ファイル化が進んだ科学論文

現在、科学論文はすべてPDFあるいはHTML形式で電子ファイル化されていると考えられる。さらに、インターネット関連の技術、ウェブ関連の技術が進歩し、読みたい論文を手元に置く必要性が次第に低くなってきていると言える。

医学論文のデータベースとしてPubMed(Medline)、Embase医学中央雑誌などがあり、文献検索はこれらのウェブサイトに接続し、検索式を送信することで、結果を手元に得られる。また、GoogleGoogle ScholarあるいはBingのようなインターネット検索サービスも科学論文を対象にしており、上記の医学文献データベースを介さず検索することも可能である。また、Cochrane Central Register of Controlled Trials (CENTRAL)はランダム化比較試験の研究論文を検索する際には必要となる。

一方フルテキストは各ジャーナルの出版社のサーバに電子ファイルとして置かれており、オンラインで料金を支払えば、すぐ全文を閲覧でき、一部は無料で全文を閲覧できる。Open Accessが拡大するに従い、著者が一定の料金を支払うことで、読者は無料で全文を読める論文が増えてきている。

PubMed検索結果のCSVファイルとしてのダウンロード

PubMedで検索を実行後、引き出された文献リストをCSV形式でファイルとしてダウンロードすることができる。図1に示すように、文献リストの上にあるSaveボタンをクリックし、Selection:をAll results、Format:をCSVに設定して、Create fileボタンをクリックする。通常のファイルを保存するためのダイアログボックスが出てくるので、適当なファイル名をつけて保存する。デフォルトではcsv-検索式からの語句 set.csvのようなファイル名が付けられているので、そのファイル名でよければ、そのまま保存操作を行うこともできる。

ダウンロードが終了するとブラウザーの左下にダウロードしたファイルを開くためのリンクが出てくるので、それをクリックするとExcelがインストールしてあるPCであれば、ファイルをすぐに開くことができる。

図1.PubMedのSave citations to file. 検索結果の全文献の情報をダウンロードするためには、Selection:でAll resultsに設定する。Format:はCSVに設定する。

保存したファイルをExcelで開くと、最初にExcelのファイル形式で保存するようにというメッセージが出るので(図2)、名前を付けて保存ボタンをクリックし、(あるいはファイルメニューから名前を付けて保存)、たとえばxlsx形式で保存しなおす。図3に保存の際のダイアログボックスを示す。

図2.PubMedからダウンロードしたCSVファイルをExcelで開いた状態。
図3.Excelで開いたCSVファイルをxlsx形式で保存する。ファイルの種類(T):でExcelブック(`xlsx)を選ぶ。

このダウンロードしたファイルには、図2の1行目を見るとわかるように、PMID    Title    Authors    Citation    First Author    Journal/Book    Publication Year    Create Date    PMCID    NIHMS ID    DOIの情報が含まれている。

PMIDはPubMedに収載されている文献に付与されているユニークな番号である。PMID番号[uid]あるいはPMID番号[pmid]でPubMedを検索するとその論文ひとつがAbstract形式で表示される。さらに、下記の様にPubMedのURL+?term=PMID番号[uid]をブラウザーのアドレス欄に入力して送信することでもその文献情報を開くことができる。医学中央雑誌(医中誌Web https://demo.jamas.or.jp/)もOpen URLに対応したAPIを公開されるということなので、同じ手法が使えるようになるかもしれない。

DOIはDigital Object Identifierのことで、すべての論文にユニークな番号あるいは記号が付けられ、それをThe DOI® System (https://doi.org/) が管理している。URLとして、https://doi.org/+DOIを入力することで直接その文献情報をブラウザーで開くことができる。PubMed検索結果には、ほとんどの文献にDOIの情報が付けられている。

ExcelでのHYPERLINKの作り方

PubMedからダウンロードした検索結果のデータに、PubMedのデータベースのそれぞれの文献へのリンクとDOIへのリンクを設定して、クリックするだけで、それぞれの情報がブラウザーで開かれるようにすることができる。PubMedではPMIDによってAbstract形式のページが、DOIでは各ジャーナルの出版社のサイトのその論文の情報を開くことができる。

ここで紹介する方法は、マクロあるいはBASICのプログラムは使用しておらず、WindowsでもMacでも動作し、MacではExcelではなくNumbersでも動作する。ブラウザーはWindowsではEdgeあるいはChrome、MacではSafariあるいはChromeで動作する。NumbersでCSVファイルを開く際には、区切りがコンマであることを指定する。

そのためには、ExcelのHYPERLINK関数を利用する。たとえば、以下のスクリプトをセルP2に書き込んであると、セルP2をクリックすると、セルA2にあるPMIDをPubMed側に送信し、PubMedのページが開かれ、そのPMIDの論文がAbstract形式で表示される。図2からわかるように、PubMedからCSV形式でダウンロードしたファイルでは、カラムAにPMIDが含まれている。

=IF(A2<>””,HYPERLINK(“https://pubmed.ncbi.nlm.nih.gov/?term=”&A2&”[uid]”),””)

DOIの場合は、以下のようなスクリプトがセルQ2に書き込んであると、セルQ2をクリックするとDOIのウェブサイトを介して、セルK2のDOI情報から、それぞれの出版社の該当する論文の情報が開かれる。図2からわかるように、PubMedからCSV形式でダウンロードしたファイルでは、カラムKにDOIが含まれている。

=IF(K2<>””,HYPERLINK(“https://doi.org/”&K2),””)

方法1

さて、PubMedからCSV形式でダウンロードしたファイルをxlsx形式で保存した後、著者が作成した、excel_add_link_pubmed_doi.xlsx(https://info.zanet.biz/dl/tools/excel_add_link_pubmed_doi.xlsxからダウンロード可)をExcelで開いて、図4の様にセルL1からセルS2の範囲を選択し、コピー操作(Ctr+C)を行い、PubMedからダウンロードしたファイルの方に戻り、そのセルL1を選択して、貼り付ける(Ctr+V)。貼り付けた状態を図5に示す。

図4.excel_add_link_pubmed_doi.xlsxファイルを開いて、セルL1からS2を選択したところ。
図5.excel_add_link_pubmed_doi.xlsxファイルのセルL1からS2をコピーしてPubMedからダウンロードしたファイルをExcelのxlsx形式にしたファイルのセルL1に貼り付けた状態。2行目の文献情報からPMIDおよびDOIのリンクが作成されている。

次に、セルL2からS2を選択して、コピーし(Ctr+C)、セルL3から下の方へ、文献の数分選択し、貼り付け操作を行う(Ctr+V)。すると、図6のようになる。

図6.文献数分セルL2からS2の内容をコピーして、3行目以下の文献情報を含むすべての行に貼りつけた状態。

方法2

もう一つの方法は、著者が作成した、excel_add_link_pubmed_doi.xlsx(https://info.zanet.biz/dl/tools/excel_add_link_pubmed_doi.xlsxからダウンロード可)をテンプレートとして用いる方法である。このファイルをExcelで開いて、PubMedからダウンロードしたCSVファイルをExcelで開いて、カラムAからカラムKまでの文献数分のセルの範囲をコピーして、テンプレートに戻って、同じカラムAからカラムKの範囲に貼り付ける。このテンプレートのExcelシートでは1000件の文献、すなわち、行1001まで、カラムLからカラムSに必要なスクリプトを入力済みなので、カラムAからカラムKまでデータを貼り付けると即座に図6と同じ状態になる。データを貼り付けたら、別名で保存し、以後の操作を行う。1000件以上の文献がある場合は、セルL2からS2までの範囲をコピーしてセルP1002以下に必要な数分貼り付ける。

また、先にテンプレートのExcelファイルのコピーをフォルダー内あるいはデスクトップ上で作成し、ファイル名を目的に応じて変更して、それを開いて、貼り付け操作を行う方法をとることもできる。

なお、PubMedからダウンロードしたCSVファイルをExcelで開いて、カラムAからKをすべて選択して(カラム名のAからKを左クリックしながら選択する)、テンプレートに戻って、セルA1を選択して貼り付けを実行する方法でも同じ結果が得られる。図7に一例を示す。

この方法2を用いる場合は、あらかじめテンプレートのファイルのコピーを作り、ファイル名を変更し、それを開いた状態で、PubMed検索を行い、CSVファイルのダウンロードが終了したら、ブラウザーの左下に表示されるリンクをクリックし、(Excelがインストールされている場合)、ダウンロードファイルを開き、カラムAからKまでを選択し、テンプレートのコピーに戻り、セルA1を選択して貼り付けを実行(Ctr+V)するのが一番速い方法かもしれない。

図7.PubMedからダウンロードしたCSVファイルをデータをコピー・貼り付けで取り込む。右側が、CSVファイルをExcelで開き、カラムAからKを選択した状態。この状態で、コピー操作(Ctr+C)を行い、右側のテンプレートのコピーのファイルのセルA1を選択して、貼り付け操作(Ctr+V)を行う。結果は図6と同じになる。

Hyperlinkの使い方

PMIDはカラムA、DOIはカラムKの同じ行のセルの値を相対参照してHYPERLINKを設定しているので、カラムのコピー・ペーストあるいはセルのコピー・ペーストで位置関係が変わる場合は、書き直す必要がある。これらのHyperlinkが設定されているセルはそのままクリックすると、ブラウザーで目的の文献情報が開かれるが、セルのスクリプトを確認したい場合は、ShiftキーとCtrキーの両方を押しながら、クリックする。

一度PubMedでその文献情報を開いて、そこからFull textへリンクをたどることもできるし、PubMed CentralにあるFull textへのリンクをたどることもできる。

インターネットに接続された状態で、カラムPのセルをクリックすると、PubMedが開かれ、その行の文献がブラウザーで表示される(図8)。

図8.PMIDからPubMedの該当文献を開いた場合。Abstractまで読むことができる。

また、カラムQのセルをクリックするとその行の論文が出版社のサイトが開かれて表示される(図9)。空欄のセルはDOIが設定されていない論文である。

図9.DOI情報で出版社の該当文献を開いた場合。Full textが公開されている場合、ここで読むことができる。

文献選定作業

このExcelのシートでは、文献の選定作業をサポートするため、評価者が採用、不採用、保留の判定結果を残せるようにしている。カラムLあるいはNのセルは0と入力すると不採用でセルの色はなし、2と入力すると採用でセルの色を緑、1と入力すると保留でセルの色は薄青になる。セルをクリックするとプルダウンメニューが表示されるので、そこから選択することもできるが、直接値を入力することもできる。0, 1, 2以外の値を入力するとエラーメッセージが表示される。

また、選定の理由などをコメントとしてコメント欄に入力することもできる。

選定の判断は、上記のHyperlinkを利用して、文献情報を閲覧しながら、行うことができる。

2名分の評価を入力できるようにしてあるので、評価者2名がそれぞれ選定作業を行い、それを照合することも容易になると考えられる。図10に一例を示す。さらに、Excelのユーザ設定の並べ替えの機能を用いて、評価者1>評価者2 PMID>の優先度で並べ替えを行えば、上の方に選定された文献が集まるはずである。図10に並べ替えのキーの設定の例を示す。それぞれが別ファイルで作業をした場合、文献の順序は変更しないようにし、評価者の該当するカラム、コメントのカラムをコピーして一本化すればいい。

図10.Excelの並べ替えとフィルターを用いて選定作業をサポートする。行番号1の上の部分をクリックして、データ全体を選択した状態で、データメニューをクリックして、中央部分にある並べ替えのボタンをクリックし、図のように、並べ替えの設定を行う。+レベルの追加をクリックして、3つのカラムをキーとして設定し、その優先度は評価者1>評価者2>PMIDとする。
図11.並べ替えの結果。評価者1と2が採用と判定した文献が容易にわかり、連続した行に集めることができる。

書誌情報の取得と利用

カラムRには全著者名を含む書誌情報、カラムSは第一著者のみを含む書誌情報を含んでいる。以下のような形式である。それぞれのセルを選択して、Wordなどに貼り付けることができる。複数のセルを選択して貼り付けることもできる。セルを選択した際には、記述されているスクリプトが表示されるが、コピー・貼り付け操作を行った場合は、内容=文献情報が得られる。

Schmid P, Rugo HS, Adams S, Schneeweiss A, Barrios CH, Iwata H, Diéras V, Henschel V, Molinero L, Chui SY, Maiya V, Husain A, Winer EP, Loi S, Emens LA; IMpassion130 Investigators. Atezolizumab plus nab-paclitaxel as first-line treatment for unresectable, locally advanced or metastatic triple-negative breast cancer (IMpassion130): updated efficacy results from a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol. 2020 Jan;21(1):44-59. doi: 10.1016/S1470-2045(19)30689-8. Epub 2019 Nov 27.

Schmid P, et al: Atezolizumab plus nab-paclitaxel as first-line treatment for unresectable, locally advanced or metastatic triple-negative breast cancer (IMpassion130): updated efficacy results from a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol. 2020 Jan;21(1):44-59. doi: 10.1016/S1470-2045(19)30689-8. Epub 2019 Nov 27.

この形式はPubMedで、CSV形式でダウンロードした場合の形式のままであり、形式を変更したい場合、自分でExcel Visual Basicでプログラムを記述するか、もし一文献ずつの作業でもいいのであれば、PubMedのCiteの機能を利用することもできる。上記のPubMedへのHyperlinkで該当する文献を開き、右の上の方にあるCiteボタンをクリックし、Format:から用いたいフォーマットを選択し、Copyボタンをクリックして、クリップボード経由で得ることができる。現在のところ、以下の5種類のフォーマットが使用可能である。いずれのフォーマットもDOI情報あるいはリンク情報を含めていることが注目される。

NLM

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

AMA

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

APA

Stellon, A. J., Hegarty, J. E., Portmann, B., & Williams, R. (1985). Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet (London, England)1(8430), 668–670. https://doi.org/10.1016/s0140-6736(85)91329-7

MLA

Stellon, A J et al. “Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis.” Lancet (London, England) vol. 1,8430 (1985): 668-70. doi:10.1016/s0140-6736(85)91329-7

NLM

Stellon AJ, Hegarty JE, Portmann B, Williams R. Randomised controlled trial of azathioprine withdrawal in autoimmune chronic active hepatitis. Lancet. 1985 Mar 23;1(8430):668-70. doi: 10.1016/s0140-6736(85)91329-7. PMID: 2858619.

最後に

以上述べたように、PubMedからCSV形式で検索結果をダウンロードし、Excelで開き、Excelのさまざまな機能を利用することで、文献選定、文献管理が容易になるであろう。

文献の選定作業を終えたのち、ExcelのシートにPICOおよびコメント欄のカラムを追加して、Abstract tableの作成へと連続的に作業を進めることもできるであろう。

PubMedはE-utilitiesが用意されており、データベースに直接検索式を送信し、結果を直接引き出すことができるように設計されている。この場合は、PubMedのウェブページを開くことなく、検索結果を得られる。著者は、これを利用した、pmSearchというウェブサイト(https://stat.zanet.biz/sr/pmsearch.htm) を開設しているが、各種検索フィルターの利用、検索式作成のサポート、文献選定作業をサポートできるRecordと呼ぶHTMLファイルの作成などの機能を用意してある。興味がある人は試してみていただきたい。


New PubMed 2020 April 1

現在2020年4月1日の時点でのNew PubMedについての情報です。

検索結果の画面で、Display Optionsを見ると、Sort byはBest matchがデフォルトになっています。Display optionsのボタンは画面右上のSearchの下にあります。(現在Display optionsの表示が以下の歯車のボタンに変更されています。)

これをMost recentに変えることができます。今までのデフォルトはMost recentでした。Most recentにした場合、すぐ右に昇順か降順かを指定する階段のようなアイコンのボタンがありますので、目的に応じて設定します。

また、1ページに表示する文献数はデフォルトで10になっていますが、Per pageからこれも変更することができます。

検索結果をファイルとしてダウンロードして保存する場合、Saveボタンをクリックします。Formatには当初RIS形式がありましたが、現時点ではなくなっています。FormatのPubMedが従来のMEDLINE形式に相当します。ファイルとしてダウンロードすると、ファイル名の拡張子が.nbibとなっていますが、通常のテキストファイルで、拡張子.txtと同じです。

また、CSV形式でダウンロードすると、Excelなどで開くことができます。

一行にひとつの文献の情報が含まれています。PMID, Title, Authors, Citation, First Author, Journal/Book, Publication Year, Create Date, PMCID, NIHMS ID, DOIのラベルがついています

この中で、DOIはDigital Object Identifierの略ですが、スラッシュの前がDOI財団が付与した番号、後ろがジャーナルがつけた番号です。DOIは文献に1対1で対応しており、重複はありません。DOIをコピーしてGoogleあるいはBingで検索すると、検索結果の一覧の上位にその文献へのリンクが表示されますので、直接ジャーナルのその論文を開くことができます。また、ブラウザーのURLのフィールドにhttps://doi.org/に続けて、DOIを書いて、Enter keyを押すと、直接ジャーナルのその文献を開くことができます。

Send toからもCitation mangerを選択して、Create fileでもPubMed形式のファイルとしてダウンロードできるようになっています。

各文献の情報の下に表示されているCiteをクリックすると引用のための形式で小さなフィールドに表示されます。CopyボタンをクリックするとPCのクリップボードにコピーされるので、執筆中の原稿にそのまま貼り付けることができます。形式も、4種類用意されています。

New PubMedに関する以前の投稿はこちらです。

SARS-CoV-2に関する文献検索

PubMedを以下の検索式で検索してみます。Searchの部分をクリックするとPubMedが開かれて検索結果が表示されます。新規タブで新規ウインドウに表示されます。

検索式1 :フリー・フルテキストでヒトを対象にした英語と日本語の2019-2020年の文献に限定しています。重要な論文でもフリー・フルテキストでない論文は出てきません。 -> Search 1
検索式2:それも含めた検索はこちら。->Search 2

検索式1: (sars-cov-2 OR covid-19 OR “new coronavirus” OR “novel coronavirus”) AND 2019:2020[dp] AND humans[mh] AND (english[la] OR japanese[la]) AND “loattrfree full text”[sb]
または
検索式2: (sars-cov-2 OR covid-19 OR “new coronavirus” OR “novel coronavirus”) AND 2019:2020[dp] AND humans[mh] AND (english[la] OR japanese[la])

humans[mh]を除いた検索式は以下の通りになります。ヒトを対象にした研究に限定しないので、引き出される文献数が多くなります。Searchの部分をクリックしてください。
検索式3:フリー・フルテキストで英語と日本語の2019-2020年の文献です。->Search 3
検索式4:フリー・フルテキスト以外の論文も含める検索はこちら。->Search 4
検索式5:出版年月日とMeSH用語による制限のない、引き出される文献数が最も多い検索式はこちら。 ->Search 5

検索式3: (sars-cov-2 OR covid-19 OR “new coronavirus” OR “novel coronavirus”) AND 2019:2020[dp] AND (english[la] OR japanese[la]) AND “loattrfree full text”[sb]
または
検索式4: (sars-cov-2 OR covid-19 OR “new coronavirus” OR “novel coronavirus”) AND 2019:2020[dp] AND (english[la] OR japanese[la])
または
検索式5:sars-cov-2 OR covid-19 OR “new coronavirus” OR “novel coronavirus”

Searchの部分をクリックした場合、その検索式をPubMed側にGETメソッドで送り、結果が表示されるので、その時点の最新の検索結果が表示されます。

さて、検索式1の結果を見ると、中国の武漢の医師を中心としたグループからGRADEアプローチに準じた”Rapid advice guideline”が発表されています。

Jin YH, Cai L, Cheng ZS, Cheng H, Deng T, Fan YP, Fang C, Huang D, Huang LQ, Huang Q, Han Y, Hu B, Hu F, Li BH, Li YR, Liang K, Lin LK, Luo LS, Ma J, Ma LL, Peng ZY, Pan YB, Pan ZY, Ren XQ, Sun HM, Wang Y, Wang YY, Weng H, Wei CJ, Wu DF, Xia J, Xiong Y, Xu HB, Yao XM, Yuan YF, Ye TS, Zhang XC, Zhang YW, Zhang YG, Zhang HM, Zhao Y, Zhao MJ, Zi H, Zeng XT, Wang YY, Wang XH; , for the Zhongnan Hospital of Wuhan University Novel Coronavirus Management and Research Team, Evidence-Based Medicine Chapter of China International Exchange and Promotive Association for Medical and Health Care (CPAM). A rapid advice guideline for the diagnosis and treatment of 2019 novel coronavirus (2019-nCoV) infected pneumonia (standard version). Mil Med Res. 2020 Feb 6;7(1):4. doi: 10.1186/s40779-020-0233-6. PMID: 32029004; PMCID: PMC7003341.

スピードがすごいですね。診療ガイドライン作成方法論についてはだいぶ前から学習を進めていた、あるいは方法論の専門家が育成されていたということなのでしょう。

PubMedを開くとCenters for Disease Control and Prevention (CDC)のCoronavirus (COVID-19)に関するページへのリンクとNational Institutes of Health (NIH)のCoronavirus (COVID-19)の研究に関するページへのリンクが表示されます。

New PubMed

US National Library of Medicineが運営する医学文献データベースPubMedが新しくなりました。2020年の春には、今までのLegacy PubMedは無くなり、New PubMedに完全に移行するそうです。

デザインが変わっただけでなく、機能的にもかなり変わっています。デフォルトのソーティングがBest Matchになり、AIも導入して、それまでの類似の検索でクリックされた文献の情報を学習して、テーマと関連があると思われる文献を上位に表示するそうです。The New PubMed is Hereというページに簡単な解説があります。

検索結果のリストでCiteという部分をクリックするといくつかのフォーマットで引用文献に使えるよう、クリップボードにコピーすることができます。論文を書くときに引用文献を付ける作業に便利でしょう。Shareという部分をクリックすると、FB、TwitterにPubMed内のその文献へのリンクをアップしたり、リンク(PERMALINK)をコピーしたりできます。その検索式でのアラートCreate alertの作成もできるとのことです。

検索結果のソーティングをMost recentに変更することもできます。従来通り、左サイドバーにARTICLE TYPEでMeta-analysis, Randomized controlled trial, Systematic reviewを指定したり、Additional filtersからはObservational Studyなどを指定できます。

SAVEからはSummary, RIS, PMID, Abstract, CSVの形式でファイルとしてダウンロードできます。RISはResearch Information SystemのことでEndNoteで直接読み込める形式のテキストファイルです。従来のMEDLINE形式に似てますが、MeSHの情報が含まれていません。MEDLINE形式のファイルを利用していたプログラムは改修が必要ですね。

現在1分に2件のスピードで新たに文献が収載されているそうです。文献数の増加に伴い、より効率的な検索法が必要になり、それを開発しているということですね。New PubMedでは、PCだけでなく、タブレット、スマートフォンでも同じ機能が使用できるそうです。

2020年4月1日のNewPubMedに関する投稿はこちらです。