プロペンシティスコアマッチング 方法 手順 バイアス 共変量

プロペンシティスコアマッチングの方法や手順、バイアス調整の本質を理解できていますか?見落としがちな落とし穴とは何でしょうか?

プロペンシティスコアマッチング 方法 手順 バイアス

あなたのマッチング、8割が逆にバイアス増やします

プロペンシティスコアマッチング要点
📊
目的

観察研究で交絡を調整し、介入効果をより正確に推定する手法

⚠️
落とし穴

共変量不足やcaliper設定ミスで逆にバイアスが増えるケースあり

実務ポイント

バランス評価と感度分析を必ず実施することが重要


プロペンシティスコアマッチング 方法 基本と観察研究

プロペンシティスコアマッチングは、観察研究で介入群と対照群の背景を揃えるための手法です。例えば患者100人のうち治療群50人、非治療群50人がいる場合、そのまま比較すると年齢や重症度の差で結果が歪みます。そこでロジスティック回帰を使い「治療を受ける確率」を算出し、似た確率同士をペアにします。つまり疑似ランダム化です。


ただし、ここで重要なのは「共変量の選び方」です。年齢や性別だけでなく、アウトカムに影響する因子を入れないと意味がありません。重要因子が1つ抜けるだけで、推定結果が大きく変わることがあります。ここが盲点です。


共変量設計が基本です。


プロペンシティスコアマッチング 手順 ロジスティック回帰と計算

手順はシンプルに見えますが、実務では細かい判断が求められます。まずロジスティック回帰でプロペンシティスコアを推定し、その後最近傍マッチングやcaliperマッチングを行います。caliperは一般的に0.2SDが推奨されますが、これを守らないケースも多いです。ここがズレます。


例えばcaliperを広く設定するとマッチング率は80%以上になりますが、バランスが崩れます。逆に狭すぎると30%程度しか残らず、サンプルサイズ不足になります。つまりトレードオフです。


caliper設定が条件です。


さらに、マッチング後は標準化差(SMD)を確認します。0.1未満が目安ですが、これを確認せずに論文を書くケースも実際に存在します。それで大丈夫でしょうか?


プロペンシティスコアマッチング バイアス 残差交絡の問題

プロペンシティスコアマッチングは万能ではありません。測定されていない交絡因子は調整できないため、残差交絡が必ず残ります。例えば「生活習慣」や「医師の判断」などはデータ化されていないことが多いです。ここが限界です。


研究によっては、重要な交絡の約30%が未測定とされることもあります。この場合、見かけ上は有意差が出ても因果関係とは限りません。意外ですね。


未測定交絡は例外です。


このリスクへの対策としては、感度分析を行うことが重要です。E-valueなどを使えば、どれくらいの未測定交絡で結果が覆るかを評価できます。つまり保険です。


プロペンシティスコアマッチング 共変量 選択と過剰調整

共変量は多ければ良いわけではありません。アウトカムに影響しない変数を入れすぎると、逆に推定精度が落ちます。これは過剰調整と呼ばれます。ここは注意です。


例えば検査値を10項目追加した結果、マッチング後の分散が増え、信頼区間が広がることがあります。結果として「有意差なし」となるケースもあります。痛いですね。


必要最小限が原則です。


また、治療後に決まる変数(ポストトリートメント変数)を入れると、因果関係が崩れます。これは典型的なミスです。


プロペンシティスコアマッチング 独自視点 IPTWと使い分け

実務ではマッチングだけでなくIPTW(逆確率重み付け)との使い分けも重要です。マッチングは直感的ですが、サンプルが減るという欠点があります。一方IPTWは全症例を使えるため、統計的パワーが高いです。ここが違いです。


例えば200例のデータでマッチングすると120例程度に減ることがありますが、IPTWなら200例すべてを活用できます。ただし重みが極端になると不安定になります。つまり一長一短です。


使い分けが重要です。


厚労省系の研究指針や疫学テキストでは、両手法の併用や結果比較が推奨されています。解析の信頼性を上げるためです。これは使えそうです。


傾向スコアの基礎と応用が解説されている資料