http://biorxiv.org/content/early/2014/02/21/002931
または
http://www.nature.com/ng/journal/v47/n3/full/ng.3211.html
(同じ物)
を読み始める。
背景知識については、LDスコア回帰が一区切りついたあたりで気が向けば書くかも。 以下は基本的にはSNPを用いたGWASを意図していると思うが、NGSデータのうちbialleleic variantに限ればそのまま適用可能だろう。
Peter Visscherモデル(勝手に命名)の復習
LDスコア回帰は、Peter Visscher論文におけるvariance component modelの拡張なので、まずこのモデルを復習する。量的表現型のGWASを想定。あるSNP$j$における回帰モデルは
$y_j = \mu + x_{ij}a_i + e_j$
ここで
- $y_j$は個人$j$の表現型値phenotypic value
- $\mu$は表現型値の平均
- $a_i$はSNP$_i$の効果
- $x_{ij}$は、SNP$i$の個人$j$における遺伝型genotypeで、SNP$i$がbb, Bb, BBのとき0, 1, 2の値をとる。
- $e_j$はresidual effect
$y_j=\mu + g_j + e_j$で、$g_j = \sum_{i=1}^m z_{ij}u_i$
ここで
- $g_j$は、個人$j$の全遺伝的効果total genetic effect
- $m$は原因遺伝的変異の数
- $u_i$は変異$i$のscaled additive effect
- $z_{ij}$は標準化されたSNP遺伝型値で、qq, Qq, QQに対して$-2f_i\sqrt{2f_i(1-f_i)}$、$(1-2f_i)\sqrt{2f_i(1-f_i)}$、$2(1-2f_i)\sqrt{2f_i(1-f_i)}$、ここで$f_i$は座位$i$におけるアレルQの頻度。
- $E(z_{ij})=0$
- $var(z_{ij})=1$
行列表記すると
$\mathbf{y}={\boldsymbol \mu}\mathbf{1}+\mathbf{g}+\mathbf{e}$で、$\mathbf{g}=\mathbf{Zu}$
このとき、$\mathbf{u}$はランダム効果であるとし、$\mathbf{u} \sim N(0,\mathbf{I}\sigma^2_u)$と仮定する。$\sigma^2_u$はcausal effectの分散である。すると、$g_j \sim N(0,\sigma^2_g=m\sigma^2_u)$と書ける、ここで$\sigma^2_g$は全加法的遺伝的効果の分散である。
これらを用いると、$\mathbf{y}$の分散共分散行列は
$var(\mathbf{y})=\mathbf{ZZ'}\sigma^2_u+\mathbf{I}\sigma^2_e=\frac{\mathbf{ZZ'}\sigma^2_g}{m}+\mathbf{I}\sigma^2_e=\mathbf{G}\sigma^2_g + \mathbf{I}\sigma^2_e$
このとき$\mathbf{G}$は原因遺伝的座位における個人ペアの遺伝的血縁関係行列genetic relationship matrixである。
この式は、古典的な遺伝率の定義($h^2=\sigma_g^2/\sigma_p^2$)と等価である。 (続きます)