GWAS catalog databaseで疾患SNPと遺伝子の関連を調べる方法

GWAS catalog databaseでSNPと形質の関連を調べる方法

GWASカタログのデータの約9割は欧米人コホート由来で、日本人患者に適用すると推定リスクが最大2倍ずれることがあります。 mext.go(https://www.mext.go.jp/content/20250115-mxt_life-000039648_2.pdf)

📌 この記事の3つのポイント

🧬

GWAS Catalogとは？

NHGRI（米国国立ヒトゲノム研究所）とEMBL-EBIが共同運営する、世界最大のゲノムワイド関連解析データベース。7,000件近い論文・15,000以上の形質データを無料で検索できます。

⚠️

日本人データの限界

収録データの大半は欧米人由来。アジア・日本人集団のSNPは代表性が低く、PRS（多遺伝子リスクスコア）の精度に影響します。

🔍

臨床・研究への活用

形質名・遺伝子名・rs IDで横断検索でき、APIによるプログラム的アクセスも可能。精度高く使うには検索戦略と集団特性の理解が必須です。

このページの目次

GWAS catalog databaseでSNPと形質の関連を調べる方法

GWAS catalog databaseの基本：NHGRIとEMBL-EBIが作った世界標準データベース

GWAS Catalog（正式名称：NHGRI-EBI GWAS Catalog）は、アメリカ国立ヒトゲノム研究所（NHGRI）と欧州バイオインフォマティクス研究所（EMBL-EBI）が2008年から共同で構築・運営するデータベースです。公開されたGWAS論文から、専門のキュレーターが手動でジェノタイプとフェノタイプの関連情報を抽出・入力しており、データの信頼性は人の目で保証されています。 togotv.dbcls(https://togotv.dbcls.jp/en/20210212.html)

つまり自動処理ではなく「人が確認したデータ」が蓄積されているということです。

データは無料で公開されており、ウェブUI・ダウンロードファイル・REST APIと複数の方法でアクセス可能です。 pubmed.ncbi.nlm.nih(https://pubmed.ncbi.nlm.nih.gov/24316577/)

参考：GWAS Catalog公式サイト（EMBL-EBI）
https://www.ebi.ac.uk/gwas/

GWAS catalog databaseの検索方法：形質名・遺伝子名・rs IDを使いこなす

GWAS Catalogでは、主に3種類のキーワードで検索できます。①疾患・形質名（例：「type 2 diabetes」「breast cancer」）、②遺伝子名（例：「BRCA2」「TCF7L2」）、③SNPのrsID（例：「rs7903146」）です。検索結果は「Traits（形質）」「Genes（遺伝子）」などのカテゴリに分類されて表示されます。 youtube(https://www.youtube.com/watch?v=L3iVHSesqDE)

形質名で検索する場合は、EFO（Experimental Factor Ontology）用語が使われています。

さらにSNPを染色体上にマッピングした図（Karyotype図）でも視覚的に関連を確認でき、論文へのリンクも直接たどれます。 youtube(https://www.youtube.com/watch?v=rSmICr-OAX0)

参考：TogoTV – GWAS Catalogの基本的な使い方（動画解説・日本語）
https://togotv.dbcls.jp/en/20210212.html

GWAS catalog databaseとEFO ID：形質の標準化と検索精度を上げるポイント

EFO（Experimental Factor Ontology）とは、GWAS Catalog内で形質・疾患を標準化するために用いられる語彙体系（オントロジー）です。たとえば「2型糖尿病」を検索するとき、EFO IDは「EFO_0001360」という固有の識別子に対応しており、これを使うとAPIからも正確に呼び出せます。 aipoch(https://www.aipoch.com/agent-skills/gwas-database)

EFO IDが基本です。

ウェブインターフェイス上では自然言語で検索しても内部的にEFO IDに変換されるため、通常の検索では意識しなくて問題ありません。一方、APIを使ったプログラム的なデータ取得（Rやpythonによる自動化など）では、EFO IDを明示的に指定することで取得精度が格段に上がります。同じ「糖尿病」でも「1型」と「2型」でEFO IDが異なるため、疾患の種別を誤らないよう注意が必要です。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)

RパッケージではCRAN公開の`{gwasrapidd}`を使うと、`get_studies()`・`get_associations()`・`get_variants()`・`get_traits()`の4関数でエンティティ別に取得でき、`set_operation`パラメータで「union（OR）」と「intersection（AND）」の切り替えも可能です。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)

参考：gwasrapidd – Rパッケージ入門（英語、CRAN）
https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html

GWAS catalog databaseのアジア人・日本人データの限界：医療従事者が知るべき集団バイアス

多くの医療従事者は「GWAS Catalogに掲載されている関連SNPはそのまま日本人患者にも適用できる」と思いがちです。しかし実態は異なります。文部科学省の調査資料でも指摘されているとおり、GWASの参照データの大多数は欧米由来であり、日本人ゲノム情報は十分に含まれていません。 mext.go(https://www.mext.go.jp/content/20250115-mxt_life-000039648_2.pdf)

集団の違いは見えにくいリスクです。

具体的な問題として挙げられるのが、LD（連鎖不平衡）構造の集団差です。欧米コホートで発見されたタグSNPが、日本人集団では異なるSNPと連鎖している場合があり、そのまま適用するとPRS（多遺伝子リスクスコア）の予測精度が低下します。日本人BMI・GWASデータを使った研究では、BBJ（バイオバンクジャパン）データを加えることで欧米由来PRSより精度の高いスコアが構築できた事例が報告されています。 amed.go(https://www.amed.go.jp/content/000099402.pdf)

参考：九州大学 – 遺伝子型DBデータベース「JoGo」公開ニュース

参考：TogoVar – 日本人バリアント頻度情報（DBCLS）
https://togotv.dbcls.jp/20200128.html

GWAS catalog databaseを臨床研究・個別化医療に活かす独自の活用戦略

一般的な解説記事ではあまり触れられない視点として、「GWAS CatalogをClinVarやGTExと組み合わせる」活用法があります。GWAS Catalogが示すのは「統計的関連（association）」であり、因果関係の証明ではありません。これが原則です。

たとえば心房細動（AF）の遺伝的背景を調べる場合、GWAS Catalogで同定されたPRRX1・PITX2などの遺伝子座を起点に、ClinVarで病的変異の分類を確認し、GTExで心筋組織での発現データと照合することで、臨床判断に使えるレベルの情報整理が可能になります。この一連の流れはGWAS Catalog単体では完結しません。 j-circ.or(https://www.j-circ.or.jp/cms/wp-content/uploads/2024/03/JCS2024_Imai.pdf)

DB名	主な用途	GWAS Catalogとの関係
GWAS Catalog	SNP-形質関連の網羅的検索	出発点・関連SNPの発見
ClinVar	臨床的病的意義の確認	GWAS Catalog SNPの臨床分類補強
GTEx	組織別遺伝子発現の確認	eQTLとGWAS SNPの照合
TogoVar / JoGo	日本人バリアント頻度・遺伝子型	集団バイアスの補正に活用

医療従事者が研究や治療標的探索でGWAS Catalogを使う際は、このクロスチェック戦略を1つの標準ワークフローとして取り入れることで、欧米由来データの限界を補いながら、より精度の高い知見を引き出せます。厳しいところですね。REST APIとRパッケージ（gwasrapidd）を使えば、このような複数DBの横断取得も自動化できるため、日常的な研究業務の効率化につながります。 cran.r-project(https://cran.r-project.org/web/packages/gwasrapidd/vignettes/gwasrapidd.html)

参考：J-STAGE – ゲノムワイド関連解析の統計的手法とGWASデータの解釈（日本語論文）

ＡＤＨＤの人の「やる気」マネジメント　「先延ばしグセ」を「すぐやる」にかえる！ (健康ライブラリー)