あなたのマッチング、8割が逆にバイアス増やします
プロペンシティスコアマッチングは、観察研究で介入群と対照群の背景を揃えるための手法です。例えば患者100人のうち治療群50人、非治療群50人がいる場合、そのまま比較すると年齢や重症度の差で結果が歪みます。そこでロジスティック回帰を使い「治療を受ける確率」を算出し、似た確率同士をペアにします。つまり疑似ランダム化です。
ただし、ここで重要なのは「共変量の選び方」です。年齢や性別だけでなく、アウトカムに影響する因子を入れないと意味がありません。重要因子が1つ抜けるだけで、推定結果が大きく変わることがあります。ここが盲点です。
共変量設計が基本です。
手順はシンプルに見えますが、実務では細かい判断が求められます。まずロジスティック回帰でプロペンシティスコアを推定し、その後最近傍マッチングやcaliperマッチングを行います。caliperは一般的に0.2SDが推奨されますが、これを守らないケースも多いです。ここがズレます。
例えばcaliperを広く設定するとマッチング率は80%以上になりますが、バランスが崩れます。逆に狭すぎると30%程度しか残らず、サンプルサイズ不足になります。つまりトレードオフです。
caliper設定が条件です。
さらに、マッチング後は標準化差(SMD)を確認します。0.1未満が目安ですが、これを確認せずに論文を書くケースも実際に存在します。それで大丈夫でしょうか?
プロペンシティスコアマッチングは万能ではありません。測定されていない交絡因子は調整できないため、残差交絡が必ず残ります。例えば「生活習慣」や「医師の判断」などはデータ化されていないことが多いです。ここが限界です。
研究によっては、重要な交絡の約30%が未測定とされることもあります。この場合、見かけ上は有意差が出ても因果関係とは限りません。意外ですね。
未測定交絡は例外です。
このリスクへの対策としては、感度分析を行うことが重要です。E-valueなどを使えば、どれくらいの未測定交絡で結果が覆るかを評価できます。つまり保険です。
共変量は多ければ良いわけではありません。アウトカムに影響しない変数を入れすぎると、逆に推定精度が落ちます。これは過剰調整と呼ばれます。ここは注意です。
例えば検査値を10項目追加した結果、マッチング後の分散が増え、信頼区間が広がることがあります。結果として「有意差なし」となるケースもあります。痛いですね。
必要最小限が原則です。
また、治療後に決まる変数(ポストトリートメント変数)を入れると、因果関係が崩れます。これは典型的なミスです。
実務ではマッチングだけでなくIPTW(逆確率重み付け)との使い分けも重要です。マッチングは直感的ですが、サンプルが減るという欠点があります。一方IPTWは全症例を使えるため、統計的パワーが高いです。ここが違いです。
例えば200例のデータでマッチングすると120例程度に減ることがありますが、IPTWなら200例すべてを活用できます。ただし重みが極端になると不安定になります。つまり一長一短です。
使い分けが重要です。
厚労省系の研究指針や疫学テキストでは、両手法の併用や結果比較が推奨されています。解析の信頼性を上げるためです。これは使えそうです。
傾向スコアの基礎と応用が解説されている資料