GoogleドキュメントでOCR

Googleドライブに置いた画像ファイル、つまり、文章の印刷物のスキャン画像、あるいは画面キャプチャ―した文章の画像のファイルを右クリックして、アプリで開く→Googleドキュメントを選択して開くとOCR機能が作動して、テキストに変換してくれるそうです。画像ファイルはJPEG、PENGいずれも大丈夫のようです。OCRはOptical Character RecognitionまたはReaderのことです。

実際にやってみましたが、そのまま正確にテキスト化してくれます。英語、日本語いずれもOKです。Google Chromeを起動して、Googleドライブを開き、これらの操作を行います。GoogleドライブにOCRのような名前のフォルダーを作って、そこへ画像ファイルをアップロードしておいて、操作すればいいと思います。カメラで撮影したファイルでもきれいに撮れていればテキスト化できるようです。

テキスト化したら、以前紹介したように、DeepLで翻訳することができます。

PubMed検索結果をGoogleスプレッドシートで処理する方法を紹介しましたが、Googleドキュメントもすごく進化してますね。

PubMed のSearch Details

Legacy PubMedでは、検索結果が表示される際に、右サイドバーにSearch Detailsが表示されており、すぐ確認することができましが、現在のPubMedでは、Advanced Searchのページに移動しないとSearch Detailsを見ることができません。

PubMedのUser Guideではいろいろなトピックが取り上げられていますが、この中のI’m not finding what I need. How does a PubMed search work?にSearch Detailsに関する説明があります。以下の様に書かれています。

”検索語句がどのように解釈されたかを確認するには、Advanced SearchページのHistoryの下にある各検索式Queryで得られるSearch Detailsを確認してください。検索トピックに対して正確でないと思われる翻訳を報告したい場合は、その情報をNLMヘルプデスクに電子メールで送ってください。”

検索した後、検索式を書き込むフィールドのすぐ下の一番左にある、AdvancedをクリックするとAdvanced Searchのページが開かれます。

図1.PubMedで検索語Advancedのリンクをクリックすると、Advanced Searchのページが開かれる。

ここで、History and Search Detailsの下にある、Details下の>をクリックするとSearch Detailsが表示されます。

図2.PubMedで検索後Advancedのリンクをクリックすると、Advanced Searchのページが開かれHisory and Search Detailsに検索式が表示されている。

例えば、(bias OR biases) AND (confounding OR confounder OR confounders) AND (definition OR definitions) AND review[pt] AND (english[la] OR japanese[la])という検索式で検索をすると、今日の時点では、231件が引き出されます。この検索式のSearch Detailsは図3のとおりです。元の検索式とはかなり異なっていることがわかります。すなわち、通常のPubMed検索では、Automatic Term Mapping (ATM)が作動して、入力した検索式そのままではなく、シソーラスからMeSH語句の参照も行われ、漏れが少ないより広範な検索が行われるようになっています。この点では、Legacy PubMedと同じです

図3.用いた検索式の下に、Search Detailsが表示される。この部分を選択してコピーすることができる。

一方で、pmSearchで利用している、PubMedのE-utilitiesを使って、同じ検索式を直接PubMed Databaseに送信して、結果を得る方法では、133件しか、返ってきません。詳細は省略しますが、以下のスクリプトのsqueryの変数に検索式が格納されています。pmSearchでは、これをJavaScriptで送信して、検索結果を得ています。

“https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&retmode=json&retmax=10000000&sort=’pub+date’&term=”+squery;

この場合は、ATMは作動しないので、検索式の条件に合致する文献のみが引き出されます。

さて、pmSearchではHow many?でE-utilitiesを使った場合に引き出される文献数をあらかじめ確認できます。また、Search in PubMedでPubMedが開かれ、PubMedの通常の検索が行われます。この2つの文献数が異なる場合、普通は前者の方が少なくなりますが、ATMの作動した結果と同じ結果が欲しい時は、次のような方法で対処できます。Search in PubMedで検索して、Advancedをクリックして、Advanced Searchのページを開き、Detailsの検索式をコピーして、Search queryのフィールド(下から2番目のフィールド)に貼り付けて、One Action Retrievalをクリックして検索結果を得るという方法を使うことができます。こうすることで、ほぼ同じ検索結果が得られます。そして、Recordをクリックして、文献リストの表を表示して、以後の作業を進めることができます。ほぼというのは、まったく同じ結果が得られない場合もありうるという意味です。

また、PubMedで検索後、SaveからSelection:はAll results、Format:はPubMedを選んで、Create fileをクリックして、ファイルとしてダウンロードして、そのファイルをpmSearchの下の方にあるRead MEDLINEから開いて読み込むこともできます。現在のPubMedでのPubMed形式は、Legacy PubMedでのMEDLINE形式と同じ形式です。内容はテキストファイルです。

図5.PubMed検索結果をファイルとしてダウロードする。

PubMedでの検索結果はデフォルトでSorted by: Best matchになっているので、検索式と関連が大きいと判定された文献が上位に表示されます。これを新しい順に変えたい場合は、検索式を書き込むフィールドの下の右に法にあるDisplay optionsをクリックし、Sort byをMost recentに変更します。

図6.Display optionsで文献の表示順序を変更。

pmSearchは管理人が作成したPubMed検索用のウェブツールです。

DeepL翻訳

DeepLというドイツの企業が開発したAIを使った自動翻訳がいろいろな分野で話題になっています。ウェブページで使えるものもあり、PCにダウンロードして使えるものもあります。翻訳したいテキストの範囲をコピーして貼り付けるか、Word(.docx)またはPowerPoint(.pptx)形式のファイルをドラッグ&ドロップして翻訳してくれます。複数の言語に対応しており、日本語から英語、英語から日本語もあっという間に翻訳してくれます。

文字数の制限がありますが、無料で使えます。有料版に登録すると文字数の制限がないだけでなく、辞書登録などもできるようです。

WindowのPCでダウンロードして使ってみました。インストールはほかのソフトウェアと同じです。翻訳したいテキストの範囲をコピーして、Ctrキーを押しながら、Cを2回続けて押します。つまり、通常のコピー操作のあとすぐCをもう一度押します。すると、自動的にDeepLが起動して、翻訳が行われ、右側のフィールドに翻訳が表示されます。原文の英語・日本語の判定は自動でしてくれます。翻訳された文章をクリックするとどの部分の翻訳ががわかるように文字に色が付きます。

ためしに、前回の投稿をDeepLで翻訳した結果はこうです。ほぼ問題ないレベルです。

In my previous post, “Using Excel for literature management and selection tasks”, I mainly discussed using Microsoft Excel, but you can also do the same thing with Google Spreadsheets. You can open files created in Excel right into a Google Spreadsheet, and it may also work on a Chrome Book, iPad or Android OS tablet.

You can use OneDrive, Google Drive, DropBox, and other cloud services to share files and allow multiple people to work together, but the method I’m going to show you might be better suited for collaborative work.

I’ve made a video explaining it. There’s no audio, and the instructions come in tickers

PubMedで検索結果のAbstractをいくつか英語から日本語に翻訳してみましたが、100%正確とは言いませんが、非常に精度が高いです。日本語から英語への翻訳でも、英語から日本語への翻訳でも元の文章の構成が単純で、わかりやすいほど精度は高くなるようです。

Googleスプレッドシートを使ってPubMedからダウンロードした文献を管理する

前回の投稿「文献管理・選定作業のためのExcelの使用法」では主にMicrosoft Excelを用いる操作について紹介しましたが、Googleスプレッドシートを使っても同じことができます。Googleのアカウントを設定して、GmailやGoogleドライブ使っている人は多いと思います。Excelで作成したファイルをGoogleスプレッドシートでそのまま開くことができます。Chrome BookやiPad、Android OSのタブレットでも動くかもしれません。

ファイルを共有して複数の人が共同で作業するには、OneDrive、Googleドライブ、DropBox、その他のクラウドサービスが使えますが、今回紹介する方法は共同作業に向いているかもしれません。

解説のビデオを作りました。音声なしで、説明がテロップで出てきます。