プロペンシティスコアマッチング方法手順バイアス共変量

プロペンシティスコアマッチング方法手順バイアス

あなたのマッチング、8割が逆にバイアス増やします

プロペンシティスコアマッチング要点

📊

目的

観察研究で交絡を調整し、介入効果をより正確に推定する手法

⚠️

落とし穴

共変量不足やcaliper設定ミスで逆にバイアスが増えるケースあり

✅

実務ポイント

バランス評価と感度分析を必ず実施することが重要

このページの目次

プロペンシティスコアマッチング方法手順バイアス

プロペンシティスコアマッチング方法基本と観察研究

プロペンシティスコアマッチングは、観察研究で介入群と対照群の背景を揃えるための手法です。例えば患者100人のうち治療群50人、非治療群50人がいる場合、そのまま比較すると年齢や重症度の差で結果が歪みます。そこでロジスティック回帰を使い「治療を受ける確率」を算出し、似た確率同士をペアにします。つまり疑似ランダム化です。

ただし、ここで重要なのは「共変量の選び方」です。年齢や性別だけでなく、アウトカムに影響する因子を入れないと意味がありません。重要因子が1つ抜けるだけで、推定結果が大きく変わることがあります。ここが盲点です。

共変量設計が基本です。

プロペンシティスコアマッチング手順ロジスティック回帰と計算

手順はシンプルに見えますが、実務では細かい判断が求められます。まずロジスティック回帰でプロペンシティスコアを推定し、その後最近傍マッチングやcaliperマッチングを行います。caliperは一般的に0.2SDが推奨されますが、これを守らないケースも多いです。ここがズレます。

例えばcaliperを広く設定するとマッチング率は80％以上になりますが、バランスが崩れます。逆に狭すぎると30％程度しか残らず、サンプルサイズ不足になります。つまりトレードオフです。

caliper設定が条件です。

さらに、マッチング後は標準化差（SMD）を確認します。0.1未満が目安ですが、これを確認せずに論文を書くケースも実際に存在します。それで大丈夫でしょうか？

プロペンシティスコアマッチングバイアス残差交絡の問題

プロペンシティスコアマッチングは万能ではありません。測定されていない交絡因子は調整できないため、残差交絡が必ず残ります。例えば「生活習慣」や「医師の判断」などはデータ化されていないことが多いです。ここが限界です。

研究によっては、重要な交絡の約30％が未測定とされることもあります。この場合、見かけ上は有意差が出ても因果関係とは限りません。意外ですね。

未測定交絡は例外です。

このリスクへの対策としては、感度分析を行うことが重要です。E-valueなどを使えば、どれくらいの未測定交絡で結果が覆るかを評価できます。つまり保険です。

プロペンシティスコアマッチング共変量選択と過剰調整

共変量は多ければ良いわけではありません。アウトカムに影響しない変数を入れすぎると、逆に推定精度が落ちます。これは過剰調整と呼ばれます。ここは注意です。

例えば検査値を10項目追加した結果、マッチング後の分散が増え、信頼区間が広がることがあります。結果として「有意差なし」となるケースもあります。痛いですね。

必要最小限が原則です。

また、治療後に決まる変数（ポストトリートメント変数）を入れると、因果関係が崩れます。これは典型的なミスです。

プロペンシティスコアマッチング独自視点 IPTWと使い分け

実務ではマッチングだけでなくIPTW（逆確率重み付け）との使い分けも重要です。マッチングは直感的ですが、サンプルが減るという欠点があります。一方IPTWは全症例を使えるため、統計的パワーが高いです。ここが違いです。

例えば200例のデータでマッチングすると120例程度に減ることがありますが、IPTWなら200例すべてを活用できます。ただし重みが極端になると不安定になります。つまり一長一短です。

使い分けが重要です。

厚労省系の研究指針や疫学テキストでは、両手法の併用や結果比較が推奨されています。解析の信頼性を上げるためです。これは使えそうです。

傾向スコアの基礎と応用が解説されている資料

プロペンシティスコアマッチング 方法 手順 バイアス 共変量