GWASで正確な結果を出せているつもりが、主成分補正のやり方次第で偽陽性を大量に生み出していることがあります。

ゲノムワイド関連解析(GWAS)とは、DNAマイクロアレイや次世代シーケンサーを使って、疾患のある症例群と健常対照群のゲノムを網羅的に比較する手法です。 特定の候補遺伝子を事前に仮定しない「仮説フリー」なアプローチであるため、発症メカニズムが不明な多因子遺伝性疾患の研究にも幅広く応用できます。 genequest(https://genequest.jp/glossary/gwas)
解析の主な対象は、SNP(一塩基多型)です。 現在の標準的なGWASでは、50万〜100万個超のSNPをタイピングして比較します。これは、ヒトゲノム全体の「スナップショット」を撮るイメージです。 dynacom.co(https://www.dynacom.co.jp/tech/tech017/)
比較の基本構造は症例対照研究で、疾患に罹患した集団と健常集団を大規模に集めてSNP頻度の差を統計的に検証します。 GWASの最も重要な特徴は、実際に疾患の原因となっているバリアントを直接見ているわけではなく、連鎖不平衡(LD)を利用してその周辺SNPをタグとして間接的に検出している点です。 つまり「犯人そのもの」ではなく「犯人の近くにいた人」を捕まえているようなものです。 bsd.neuroinf(https://bsd.neuroinf.jp/wiki/%E3%82%B2%E3%83%8E%E3%83%A0%E3%83%AF%E3%82%A4%E3%83%89%E9%96%A2%E9%80%A3%E8%A7%A3%E6%9E%90)
参考:GWASの基本的な概念と歴史的背景を俯瞰できるWikipediaの解説ページ。
GWASでは、症例群と対照群それぞれのSNP頻度(アレル頻度)を比較し、カイ二乗検定やロジスティック回帰分析を用いて関連の有無を統計的に評価します。 数値的には、各SNPに対して算出されたp値を、ゲノム上の位置順に並べて可視化したものがマンハッタンプロットです。 縦軸に−log₁₀(p値)を取るため、山が高いSNPほど疾患との関連が強いことを示します。 radionikkei(https://www.radionikkei.jp/uptodate/docs/uptodate-230221.pdf)
多重比較の補正が必須です。 1post(https://1post.jp/7118)
GWASでは約100万個のSNPを同時に検定するため、有意水準として通常のp<0.05ではなく、p<5×10⁻⁸という閾値が慣例的に使われます。 これは、0.05を100万で割った値です。例えるなら、100万回コインを投げて偶然表が出る確率を徹底的に排除する設計です。 1post(https://1post.jp/7118)
SNPの選定では、Minor Allele Frequency(MAF:少数アレル頻度)が一般的に1〜5%以上であることが条件とされます。あまりに希少なバリアントは統計的検出力が落ちるためです。 なお、GWASで同定されるコモンバリアントのオッズ比(OR)は多くの場合1.1〜1.3程度と小さく、希少バリアントの方が高いORを示すことが指摘されています。 これはGWASの構造的な限界の一つです。 youtube(https://www.youtube.com/watch?v=CeVIPV24v5I)
参考:マンハッタンプロットの読み方と統計解析の手順を解説したラジオ日経のPDF資料。
疾患のゲノムワイド関連解析とマンハッタンプロット(ラジオ日経)
GWASの最大の落とし穴が集団の層化(Population Stratification)です。 異なる民族背景を持つ人が混在していると、疾患とは無関係なSNP頻度の差が「偽陽性の関連」として検出されてしまいます。 kanen.jihs.go(https://www.kanen.jihs.go.jp/cont/090/010/010/023/20110715_for_dr_03.pdf)
この問題に対処する標準的な方法が主成分分析(PCA)です。 PCAによってサンプル間の遺伝的背景の差を主成分(PC)として算出し、ロジスティック回帰の共変量として補正します。 フィルジェン社の資料によれば、PCAの結果は2次元・3次元グラフで可視化して遺伝的背景の偏りを確認するのが基本手順です。 filgen(http://filgen.jp/Product/BioScience21-software/goldenhelix/SVS_seminar_slide_20231010.pdf)
注意が必要な点があります。 bibgraph.hpcr(https://bibgraph.hpcr.jp/abst/pubmed/38617337)
ただし最新の研究では、PCAを用いた主成分補正そのものが、混合集団において逆に偽の関連性を誘導するリスクがあることが示されています。 特に、非典型的なLD構造を持つゲノム領域をPCが捉えてしまった場合、それをモデルに含めることで結果が歪む可能性があります。 つまり「補正のつもりが歪み」という皮肉な事態が起きます。 bibgraph.hpcr(https://bibgraph.hpcr.jp/abst/pubmed/38617337)
慎重な前処理と診断的チェックが条件です。 大阪大学の研究では、日本人集団の地域的な遺伝的多様性を大規模ゲノムの機械学習手法で解明しており、日本人を対象とするGWASでも集団内の構造への注意が必要です。 med.osaka-u.ac(https://www.med.osaka-u.ac.jp/activities/results/2020year/okadasakaue20200327)
参考:PCA補正が偽陽性を生む可能性についての研究要約(英語原著の日本語要約)。
主成分の調整は混合集団におけるGWASで偽の関連性を誘導する可能性 - Bibgraph
GWASでは、実際に遺伝子型を測定していないSNPの情報を推定・補完するインピュテーション(Imputation)が重要なステップです。 遺伝子型チップで直接タイピングできるSNPは限られていますが、インピュテーションによって解析対象SNP数を大幅に増やすことができます。 ja.wikipedia(https://ja.wikipedia.org/wiki/%E3%82%B2%E3%83%8E%E3%83%A0%E3%83%AF%E3%82%A4%E3%83%89%E9%96%A2%E9%80%A3%E8%A7%A3%E6%9E%90)
これは使えます。 ja.wikipedia(https://ja.wikipedia.org/wiki/%E3%82%B2%E3%83%8E%E3%83%A0%E3%83%AF%E3%82%A4%E3%83%89%E9%96%A2%E9%80%A3%E8%A7%A3%E6%9E%90)
具体的には、参照パネル(1000 Genomes ProjectやTopMedなど)の大規模な遺伝子型・ハプロタイプ情報を基に、未測定のSNP遺伝子型を統計的に推測します。 これにより、異なるSNPチップを使った複数のコホート間でのメタ解析が可能になります。 例えばコホートAで測定していないSNPも、インピュテーション後は共通のSNPセットとして比較できます。 ja.wikipedia(https://ja.wikipedia.org/wiki/%E3%82%B2%E3%83%8E%E3%83%A0%E3%83%AF%E3%82%A4%E3%83%89%E9%96%A2%E9%80%A3%E8%A7%A3%E6%9E%90)
参考:GWASデータの解析手順とSNPのインピュテーションについての技術的な解説。
GWASの結果の活用範囲は広いということです。 日本では理研ジェネシスなどがGWASのバイオインフォマティクス解析支援サービスを提供しており、自施設でのデータ解析が難しい場合の選択肢として活用できます。 rikengenesis(https://www.rikengenesis.jp/service/bioinformatics/gwas_bi.html)
参考:臨床研究者向けにGWASからPRS・メンデルランダム化への展開をわかりやすく解説したブログ記事。