GWASカタログのデータの約9割は欧米人コホート由来で、日本人患者に適用すると推定リスクが最大2倍ずれることがあります。 mext.go(https://www.mext.go.jp/content/20250115-mxt_life-000039648_2.pdf)

GWAS Catalog(正式名称:NHGRI-EBI GWAS Catalog)は、アメリカ国立ヒトゲノム研究所(NHGRI)と欧州バイオインフォマティクス研究所(EMBL-EBI)が2008年から共同で構築・運営するデータベースです。 公開されたGWAS論文から、専門のキュレーターが手動でジェノタイプとフェノタイプの関連情報を抽出・入力しており、データの信頼性は人の目で保証されています。 togotv.dbcls(https://togotv.dbcls.jp/en/20210212.html)
つまり自動処理ではなく「人が確認したデータ」が蓄積されているということです。
データは無料で公開されており、ウェブUI・ダウンロードファイル・REST APIと複数の方法でアクセス可能です。 pubmed.ncbi.nlm.nih(https://pubmed.ncbi.nlm.nih.gov/24316577/)
参考:GWAS Catalog公式サイト(EMBL-EBI)
https://www.ebi.ac.uk/gwas/
GWAS Catalogでは、主に3種類のキーワードで検索できます。①疾患・形質名(例:「type 2 diabetes」「breast cancer」)、②遺伝子名(例:「BRCA2」「TCF7L2」)、③SNPのrsID(例:「rs7903146」)です。 検索結果は「Traits(形質)」「Genes(遺伝子)」などのカテゴリに分類されて表示されます。 youtube(https://www.youtube.com/watch?v=L3iVHSesqDE)
形質名で検索する場合は、EFO(Experimental Factor Ontology)用語が使われています。
さらにSNPを染色体上にマッピングした図(Karyotype図)でも視覚的に関連を確認でき、論文へのリンクも直接たどれます。 youtube(https://www.youtube.com/watch?v=rSmICr-OAX0)
参考:TogoTV – GWAS Catalogの基本的な使い方(動画解説・日本語)
https://togotv.dbcls.jp/en/20210212.html
EFO(Experimental Factor Ontology)とは、GWAS Catalog内で形質・疾患を標準化するために用いられる語彙体系(オントロジー)です。 たとえば「2型糖尿病」を検索するとき、EFO IDは「EFO_0001360」という固有の識別子に対応しており、これを使うとAPIからも正確に呼び出せます。 aipoch(https://www.aipoch.com/agent-skills/gwas-database)
EFO IDが基本です。
ウェブインターフェイス上では自然言語で検索しても内部的にEFO IDに変換されるため、通常の検索では意識しなくて問題ありません。一方、APIを使ったプログラム的なデータ取得(Rやpythonによる自動化など)では、EFO IDを明示的に指定することで取得精度が格段に上がります。 同じ「糖尿病」でも「1型」と「2型」でEFO IDが異なるため、疾患の種別を誤らないよう注意が必要です。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)
RパッケージではCRAN公開の`{gwasrapidd}`を使うと、`get_studies()`・`get_associations()`・`get_variants()`・`get_traits()`の4関数でエンティティ別に取得でき、`set_operation`パラメータで「union(OR)」と「intersection(AND)」の切り替えも可能です。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)
参考:gwasrapidd – Rパッケージ入門(英語、CRAN)
https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html
多くの医療従事者は「GWAS Catalogに掲載されている関連SNPはそのまま日本人患者にも適用できる」と思いがちです。しかし実態は異なります。文部科学省の調査資料でも指摘されているとおり、GWASの参照データの大多数は欧米由来であり、日本人ゲノム情報は十分に含まれていません。 mext.go(https://www.mext.go.jp/content/20250115-mxt_life-000039648_2.pdf)
集団の違いは見えにくいリスクです。
具体的な問題として挙げられるのが、LD(連鎖不平衡)構造の集団差です。欧米コホートで発見されたタグSNPが、日本人集団では異なるSNPと連鎖している場合があり、そのまま適用するとPRS(多遺伝子リスクスコア)の予測精度が低下します。 日本人BMI・GWASデータを使った研究では、BBJ(バイオバンクジャパン)データを加えることで欧米由来PRSより精度の高いスコアが構築できた事例が報告されています。 amed.go(https://www.amed.go.jp/content/000099402.pdf)
参考:九州大学 – 遺伝子型DBデータベース「JoGo」公開ニュース
参考:TogoVar – 日本人バリアント頻度情報(DBCLS)
https://togotv.dbcls.jp/20200128.html
一般的な解説記事ではあまり触れられない視点として、「GWAS CatalogをClinVarやGTExと組み合わせる」活用法があります。GWAS Catalogが示すのは「統計的関連(association)」であり、因果関係の証明ではありません。これが原則です。
たとえば心房細動(AF)の遺伝的背景を調べる場合、GWAS Catalogで同定されたPRRX1・PITX2などの遺伝子座を起点に、ClinVarで病的変異の分類を確認し、GTExで心筋組織での発現データと照合することで、臨床判断に使えるレベルの情報整理が可能になります。この一連の流れはGWAS Catalog単体では完結しません。 j-circ.or(https://www.j-circ.or.jp/cms/wp-content/uploads/2024/03/JCS2024_Imai.pdf)
| DB名 | 主な用途 | GWAS Catalogとの関係 |
|---|---|---|
| GWAS Catalog | SNP-形質関連の網羅的検索 | 出発点・関連SNPの発見 |
| ClinVar | 臨床的病的意義の確認 | GWAS Catalog SNPの臨床分類補強 |
| GTEx | 組織別遺伝子発現の確認 | eQTLとGWAS SNPの照合 |
| TogoVar / JoGo | 日本人バリアント頻度・遺伝子型 | 集団バイアスの補正に活用 |
医療従事者が研究や治療標的探索でGWAS Catalogを使う際は、このクロスチェック戦略を1つの標準ワークフローとして取り入れることで、欧米由来データの限界を補いながら、より精度の高い知見を引き出せます。厳しいところですね。REST APIとRパッケージ(gwasrapidd)を使えば、このような複数DBの横断取得も自動化できるため、日常的な研究業務の効率化につながります。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)
参考:J-STAGE – ゲノムワイド関連解析の統計的手法とGWASデータの解釈(日本語論文)