横須賀の某Prisonで働く研究者?のブログ

NAISTを出て横須賀の某社の研究所で研究者をしています.本ブログの内容は業務内容や所属企業とは一切関係ありません.

【論文紹介】Black Box FDR (ICML 2018)

こんにちは,こんばんは,接点QBです. 今回はICML 2018 に投稿された Black Box FDR (ansey et al., 2018) という論文の解説をしたいと思います.

概要

データを集めるために色々な実験をしますが,その際に実験ごとにサンプルの条件が異なっていることがあります. たとえば,癌細胞に作用する薬の効果を測定するための実験を考えます(図1). 30個の実験結果があるとします. 各実験においては,同一の遺伝子を持つ癌細胞に対して処置を行う(薬を投与)という試行と処置を行わないという試行を複数回行って統計量を算出します. しかし,実験が30個の実験全てで同一の遺伝子を持つ癌細胞を用いているわけではありません. つまり,実験ごとに用いている癌細胞の遺伝子は異なっていて,かつ遺伝子の差異が実験結果(薬が効くかどうか)に影響を及ぼす可能性があります.

f:id:setten-QB:20180901123034p:plain
左側が30個の実験,左側が各実験に用いた細胞の遺伝子に関する情報

このように複数の実験を行った場合で,実際に処置に対して効果があったのかを判定し,かつその実験結果に影響を与える変数を決定するための方法が Black Box FDR (BB-FDR) です.

問題設定

$n$ 個の実験結果が与えられていて,各実験から検定統計量 $z_1, \cdots, z_n$ が計算されているとします. さらに,各実験ごとに$z_i,\, i=1,\cdots, n$ に影響を与えると考えられる変数 $X_{i1},\cdots, X_{im}$ が存在します.

BB-FDR の目的は,(1) 処置に対して統計的に有意な反応を示した実験(つまり,棄却域に落ちる$z_i$)を同定し,(2) 実験結果に影響を与えている$X_{im}$を求めることです. Tansey et al. (2018) では (1) と (2) の2段階に分けて手法の設計が行われています.

各実験に対して以下の仮説検定を考えます:

$H_0$(帰無仮説):処置は効果がない      $H_1$(対立仮説):処置は効果がある

実験 $i$ で$H_0$が棄却される場合を$h_i=1$,$H_0$が棄却されない場合を$h_i=0$で表し,帰無分布を$f_0$,対立分布を$f_1$で表します.

Stage 1: 統計的に有意に処置効果が認められる実験結果の同定

検定統計量$z_i$に対して,以下のようなモデルを入れます:

\begin{align} & z_i \sim h_i f_1(z) + (1-h_i) f_0(z_i) \\ & h_i \sim {\rm Bernoulli}(c_i) \\ & c_i \sim {\rm Beta}(a_i, b_i) \tag{1} \\ & a_i, b_i \sim G_{\theta, i}(X). \end{align}

$G_{\theta, i}$ は$\theta$をパラメータに持つブラックボックス関数で,ここではDNNを用います.

$\theta$を最適化するために以下の最適化問題SGDで解きます:

\begin{equation} \min_{\theta} -\sum_i \log p_{\theta} (z_i) + \lambda \left \| G_{\theta}(X) \right \|^2_F \end{equation}

ただし, \begin{align} p_{\theta}(z_i) =& \int_{0}^{1} \sum_{h_i \in {0, 1}} p\left( z_i, h_i, c_i\right)\, dc_i \\ = & \int_{0}^{1} \sum_{h_i \in {0, 1}} p(z_i | h_i, c_i) p(h_i) p(c_i)\, dc_i \\ =& \int_{0}^{1} \left \{ c_i f_1(z_i) + (1-c_i) f_0(z_i)\right \} {\rm Beta}(a_i, b_i) \, dc_i \\ \end{align}

であり,$\left \| \cdot \right\|$ はフロベニウスノルムを表します. この最適化問題を解くことで$\hat{\theta}$が得られると,以下のように対立仮説の下での各検定統計量の事後確率を計算することが出来ます:

\begin{align} \hat{w}_i :=& p_{\hat{\theta}}(h_i=1 | z_i \sim f_1)\\ =& \int_{0}^{1} \frac{c_i f_1(z_i) {\rm Beta}(c_i | G_{\hat{\theta}, i}(X))}{c_i f_1 (z_i) + (1-c_i) f_0(z_i)}\, dc_i . \end{align}

この$\hat{w}$を降順にソートして,最初の$q$個の仮説検定において帰無仮説を棄却します. つまり,以下の最適化問題を解きます: \begin{equation} \max_{q} q \quad \textrm{subject to} \quad \frac{\sum_{i=1}^{q} \left( 1-\hat{w}_i\right)}{q} \leq \alpha . \end{equation} 要するに,$q$ 個の実験における type I erro の確率の平均を $\alpha$ 以下に抑えて,その下で検出力を最大化するというネイマン・ピアソン流の検定の構成方法をとっています.

Stage 2: important variables の同定

モデルに $G_{\theta, i}(X)$ を用いることで,以下のトレードオフが発生します:

  • メリット:変数$X$と検定統計量の関係を表すための関数のクラスが大きくなる(仮説集合のサイズが大きくなる)
  • デメリット:stage 1 の検定の検出力が(linear modelを使った場合に比べて)小さくなる

ただ,クラスが大きくはなりますが black box 的なDNNから重要な特徴量を同定するということは簡単ではありません. 特に,今回のように false discovery rate をコントロールしながらの変数選択は著者らが探した範囲では手法が提案されていないそうです.

このような問題にチャレンジするために,BB-FDR では conditional randomization tests (CRTs) (Candes et al., 2018) を用います. CRTでは,特徴行列 $X$ の第 $j$ 列に対応する変数(特徴量) $X_{\cdot j}$ を他の変数 $X_{\cdot -j}$ のみを用いてモデリングするという方法です. CRTによって,条件付き分布 $\mathbb{P}(X_{\cdot j} | X_{\cdot -j})$ が仮説 $X_{\cdot j} \mathop{\perp\!\!\!\!\perp} Z|X_{\cdot -j}$ を検定する際の妥当な帰無分布を表します. ただし,$Z$は検定統計量です. 対応する $p$ 値は条件付き分布からのサンプリングによって計算されます: \begin{align} p_j =& \mathbb{E}_{\tilde{X}_{\cdot j} \sim \mathbb{P}(X_{\cdot j} | X_{\cdot -j}) } \left[ \mathbb{I} \left[ t(\mathbf{z}, X) \leq t (\mathbf{z}, (\tilde{X}_{\cdot j}, X_{\cdot -j})) \right] \right] \\ =& {\rm Pr} \left( \left. t(\mathbf{z}, X) \leq t (\mathbf{z}, (\tilde{X}_{\cdot j}, X_{\cdot -j})) \right| \tilde{X}_{\cdot j} \sim \mathbb{P}(X_{\cdot j} | X_{\cdot -j} ) \right) \end{align} ここで,$t$ は検定統計量です. 一旦全ての変数に対して $p$ 値を求めれば,あとは標準的な Benjamini-Hochberg 法を適用して重要な変数を同定すれば良いことになります.

BB-FDR は,どの変数が帰無分布から生成された $z_i$ の事後確率の変化に関連するのかを検定します. これは,事後確率の負のエントロピーを検定統計量として用います: \begin{align} t(\mathbf{z}, X) = \sum_{i} \hat{w}_i \log \hat{w}_i + \sum_{i} \left( 1 - \hat{w}_i \right) \log \left( 1 - \hat{w}_i \right) . \end{align} 処置効果を予測するために有用な変数は,事後確率のエントロピーを減少させます.

評価実験

$P(X), P(h=1 | X)$ の組み合わせ3パターンと,検定統計量$z$ の確率分布3パターンで計6パターンでシミュレーションを行って評価しています. $X=(X_1, \cdots, X_m),\, m=50$のうち実際に目的変数に影響しているのは25個の変数だけで,false discovery rate の閾値は$10\%$ に設定されています. また,$n$ は $[100, 5000]$ で動かします.

比較手法は

  1. Benjamini-Hochberg method (Benjamini & Hochberg, 1995)
  2. NeuralFDR (Xia et al, 2017)
  3. Eq. (1) で $c_i$ の分布に fully-Bayesian logistic regression を使用したモデル

の3つです.

Stage 1 の評価

全体的に 3. fully-Bayesian logistic regression を使った手法が高い性能を指名しています. しかし,$n$ が大きくて,$z$ の帰無分布と対立分布が近いときは BB-FDR が最も高い性能を示しています. また,手法3 は学習に数時間必要で,BB-FDR は数分で学習が完了したそうです.

Stage 2 の評価

Benjamini-Hochberg method と NeuralFDR は重要な変数の同定に関しては扱っていないので, ここでは 手法3 との比較だけになります. $z$ の帰無分布と対立分布が十分に遠い場合には両手法の間に大きな差はありません. $n$ が大きくなると,false discovery rate・検出力ともにBB-FDR が手法3 を上回っています.

まとめと所感

今回の記事では,

  • 複数の実験結果が得られているとき各実験の結果を検定し
  • 実験ごとに複数の(結果に影響しているか怪しい)変数のうち,実際に結果に影響を及ぼしている変数を同定する

手法である Black Box FDR を紹介しました. 一番最初の例で出されているように,ニーズとしては生物学や医学系が多いのかなと思います. あとは社会科学系でも使えそうかな?

モデルを記述する部分にDNNを使っていますが,話のジャンルとしてはどちらかといえば伝統的な数理統計学やメタアナリシスに近いと感じました.

参考文献

  • Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the royal statistical society. Series B (Methodological), 289-300.
  • Candes, E., Fan, Y., Janson, L., & Lv, J. (2018). Panning for gold:‘model‐X’knockoffs for high dimensional controlled variable selection. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 80(3), 551-577.
  • Tansey, W., Wang, Y., Blei, D. M., & Rabadan, R. (2018). Black Box FDR. International Conference of Machine Learning 2018 (ICML 2018).
  • Xia, F., Zhang, M. J., Zou, J. Y., & Tse, D. (2017). Neuralfdr: Learning discovery thresholds from hypothesis features. In Advances in Neural Information Processing Systems (pp. 1541-1550).