GoogleドキュメントでOCR

Googleドライブに置いた画像ファイル、つまり、文章の印刷物のスキャン画像、あるいは画面キャプチャ―した文章の画像のファイルを右クリックして、アプリで開く→Googleドキュメントを選択して開くとOCR機能が作動して、テキストに変換してくれるそうです。画像ファイルはJPEG、PENGいずれも大丈夫のようです。OCRはOptical Character RecognitionまたはReaderのことです。

実際にやってみましたが、そのまま正確にテキスト化してくれます。英語、日本語いずれもOKです。Google Chromeを起動して、Googleドライブを開き、これらの操作を行います。GoogleドライブにOCRのような名前のフォルダーを作って、そこへ画像ファイルをアップロードしておいて、操作すればいいと思います。カメラで撮影したファイルでもきれいに撮れていればテキスト化できるようです。

テキスト化したら、以前紹介したように、DeepLで翻訳することができます。

PubMed検索結果をGoogleスプレッドシートで処理する方法を紹介しましたが、Googleドキュメントもすごく進化してますね。

交絡因子Confounders

疫学Epidemiologyと臨床疫学Clinical Epidemiologyは同じではありません。前者の方が歴史が長く、非常に奥が深い領域です。Evidence-Based Medicine (EBM)に興味を持って、研究の内的妥当性の評価、いわゆる批判的吟味Critical appraisalを学んだとしても、疫学の奥深さにはなかなか到達できないと思います。

Rothman KJ, Greenland S, Lash TL: Modern Epidemiology (3rd ed.) 2008 Lippincott Williams & Wilkins. PA, USA.のは発刊されてから10年以上経っていますが、今でも非常に優れた疫学のテキストブックだと思います。このChapter 9. Validity in Epidemiologic Studies. Rothman KJ, Greenland S, Lash TLではValidity of Estimation推定値の妥当性、Confounding交絡、Selection Bias選択バイアス、Information Bias情報バイアス、Generalizability一般化可能性について書かれています。

交絡因子は曝露/介入ともアウトカムとも関連のある因子として認識されていると思います。例えば、飲酒者と非飲酒者で口腔癌の発症を比較する場合、飲酒する人は喫煙する人が多く、喫煙は口腔癌のリスクファクターであり、喫煙は飲酒と口腔癌発症発症の両方に関連があるため、交絡因子であり、飲酒の口腔癌発症への効果を歪めることになります。

Counterfactual反事実の対照を設定できない限り、対照群と暴露群の比較では交絡の影響を考慮することが必須だと言えます(最後の追加を見てください)。

Rothman KJらは上記の第9章で、交絡因子については3つの基準Criteriaがあることを述べています(図1)。

図1.交絡因子の3基準。

さらに、これらの3つの特徴が交絡因子の定義として誤解されることがあること、ここれらの基準が満たされても必ず交絡因子と言えるわけではないことを指摘しています。

アウトカムの原因となる外部因子と関連があり、その代理となりうる因子も交絡因子と呼ばれる。すなわち、代理交絡因子Surrogate confounderが単に交絡因子と呼ばれることも多いと述べられています。例えば、多くの研究で年齢が交絡因子として取り扱われていますが、年齢は代理交絡因子の代表的なものです。加齢によって起きる、細胞の変異の蓄積、組織の損傷の蓄積などが疾患発症(アウトカム)の原因であって、年齢自体が疾患発症を引き起こすわけではないということです。

この3条件についての彼らの記述をリストアップしてみます:

・交絡因子、代理交絡因子のいずれでも、交絡因子候補として扱っていいが、研究下の暴露のそのレベルで危険因子として作用するものでなければならない。
・データで認められる交絡因子候補とアウトカムの関連は交絡があるかどうかを見極めるガイドになるが、見かけ上の関連でなく、実際の関連でなければならない。
・交絡因子候補とアウトカムの関連を知るには外部のエビデンス、すなわち事前の知識Prior knowledgeが必要になり、特に小規模な研究の場合はそうである。
・しかしながら、外部のエビデンスの限界に注意が必要である。
・コホート研究では原集団Source populationは研究コホートになり、測定誤差が無ければ、研究コホートで暴露と関連のある因子は交絡因子と考えてよい。
・ランダム化比較試験であれば交絡が起きないとは言えない。小規模な試験の場合は大きくなりやすく、大規模な試験であっても介入のアドヒアランスが悪い場合、脱落が多い場合は交絡が起きやすい。
・症例対照研究では原集団の内、ケースとなる集団で、暴露と交絡因子の候補の関連があるはずである。対照群が十分大きく、選択バイアス・測定誤差が無ければ、研究データから交絡をチェックできるが、一般的には暴露と交絡因子の候補との関連を適切に推定できないかもしれない。(Bias analysisが必要)。
・交絡因子が暴露よりも先行Precedeしている。
・交絡因子がアウトカムより先行している。
・もし、交絡因子候補が暴露の結果であり、その結果がアウトカムに関連している場合=中間因子の場合、交絡因子として解析しないで、中間因子として解析する必要がある。
・3条件が満たされる交絡因子が同定できた場合でも他に未知の交絡因子があるかもしれない。
・未知の交絡因子は解析できない。
・未知の交絡因子の効果が混ざり合った結果がプラスマイナス0になることもありうる。
・条件によっては、未知の交絡因子の効果を暴露の効果と取り違える可能性もある。

さて、バイアスや交絡因子あるいは交絡という用語の使い方は使う人によってさまざまであることが指摘されています。Schwartz Sらはこの投稿の最後に示す論文で、Internal validity, Source population, Causal effect, Actual effect of exposure, Bias (i.e., invalidity)についての定義を示したのち、”Confounding, selection bias, and information bias are categories of bias thus defined. What unites them is their consequence—what they do to the study results. They each create noncomparability, which prevents the identification of the true causal effect the exposure had on the exposed in the source population.”「交絡、選択バイアス、情報バイアスは、このように定義されたバイアスのカテゴリーである。これらのバイアスをまとめているのは、その結果、すなわち研究結果に何をもたらすかということである。これらのバイアスはそれぞれ非比較可能性を生み出し、暴露が原集団の被暴露者に与えた真の因果関係を特定することを妨げる。」と述べています。

異なる視点、異なる分野での異なる考えなどを知ることがとても重要に思えます。

文献:
Rothman KJ, Greenland S, Lash TL: Modern Epidemiology (3rd ed.) 2008 Lippincott Williams & Wilkins. PA, USA.

Schwartz S, Campbell UB, Gatto NM, Gordon K: Toward a clarification of the taxonomy of “bias” in epidemiology textbooks.  2015;26:216-22. doi: 10.1097/EDE.0000000000000224 PMID: 25536455

追加:

効果測定値Measures of effect関連測定値Measures of association
集団と暴露以外は同じ反事実集団を比較する。集団と暴露を受けていない異なる人々の異なる集団を比較する。
効果effectと関連associationを使い分けています。本当の値と研究結果で得られた値と考えてもいいと思います。

2つの集団間の差が見られ、これら2つの測定値、すなわち効果測定値と関連測定値、が異なる場合、我々は、関連associationが交絡しているconfounded、または交絡が関連に存在していると言う。  これら2つの測定値が同じであれば、交絡は存在しないと言う。

交絡因子とは、関連性の測定値と、反事実counterfactulalの理想を用いて得られるであろう効果の測定値との間の差の全部または一部を説明するか、または作り出す因子(暴露、介入、治療など)である。

R-bloggers

Rに関するブログを集めて紹介するR-bloggersというサイトがあります。英語でRに関する情報をブログで発信している人が、登録できるようになっています。また、メーリングリストも運営されており、参加すると適宜新しい情報がメールで送られてきます。Web siteで右サイドバーの上の方にSubscribe用のフィールドがあります。こちらは誰でも参加出来ます。

例えば、今日は”Animating U.S. COVID-19 hotspots over time”に関する情報が送られてきました。

Rを使う統計解析セミナー

Introduction to statistics using R and Rstudio (IRRS02)

28 October 2020 – 29 October 2020 –>Link

WinBUGSのメーリングリストで回ってきました。COVID-19のため、オンラインで提供され、募集人数は20名までだそうです。275ポンド(約3万8千円)で、2日間約15時間のコースだそうです。その他、Pythonを使った機械学習のセミナーなど全部で14件の案内が来てます。

WinBUGSのメーリングリストに参加するには、OpenBUGSのサイトで、左サイドバーからCommunityを開き、下の方にあるWinBUGS mailing listからSubscribeの操作をします。