HumanGenomics: 2015

LDスコア回帰について、ひとり輪読会を行う。とりあえず
http://biorxiv.org/content/early/2014/02/21/002931
または
http://www.nature.com/ng/journal/v47/n3/full/ng.3211.html
（同じ物）
を読み始める。
背景知識については、LDスコア回帰が一区切りついたあたりで気が向けば書くかも。以下は基本的にはSNPを用いたGWASを意図していると思うが、NGSデータのうちbialleleic variantに限ればそのまま適用可能だろう。

Peter Visscherモデル（勝手に命名）の復習

LDスコア回帰は、Peter Visscher論文におけるvariance component modelの拡張なので、まずこのモデルを復習する。
量的表現型のGWASを想定。あるSNP$j$における回帰モデルは
$y_j = \mu + x_{ij}a_i + e_j$
ここで

$y_j$は個人$j$の表現型値phenotypic value
$\mu$は表現型値の平均
$a_i$はSNP$_i$の効果
$x_{ij}$は、SNP$i$の個人$j$における遺伝型genotypeで、SNP$i$がbb, Bb, BBのとき0, 1, 2の値をとる。
$e_j$はresidual effect

すべての原因遺伝的変異のデータがあるとするとき、
$y_j=\mu + g_j + e_j$で、$g_j = \sum_{i=1}^m z_{ij}u_i$
ここで

$g_j$は、個人$j$の全遺伝的効果total genetic effect
$m$は原因遺伝的変異の数
$u_i$は変異$i$のscaled additive effect
$z_{ij}$は標準化されたSNP遺伝型値で、qq, Qq, QQに対して$-2f_i\sqrt{2f_i(1-f_i)}$、$(1-2f_i)\sqrt{2f_i(1-f_i)}$、$2(1-2f_i)\sqrt{2f_i(1-f_i)}$、ここで$f_i$は座位$i$におけるアレルQの頻度。

このとき

$E(z_{ij})=0$
$var(z_{ij})=1$

である。
行列表記すると
$\mathbf{y}={\boldsymbol \mu}\mathbf{1}+\mathbf{g}+\mathbf{e}$で、$\mathbf{g}=\mathbf{Zu}$
このとき、$\mathbf{u}$はランダム効果であるとし、$\mathbf{u} \sim N(0,\mathbf{I}\sigma^2_u)$と仮定する。$\sigma^2_u$はcausal effectの分散である。すると、$g_j \sim N(0,\sigma^2_g=m\sigma^2_u)$と書ける、ここで$\sigma^2_g$は全加法的遺伝的効果の分散である。
これらを用いると、$\mathbf{y}$の分散共分散行列は
$var(\mathbf{y})=\mathbf{ZZ'}\sigma^2_u+\mathbf{I}\sigma^2_e=\frac{\mathbf{ZZ'}\sigma^2_g}{m}+\mathbf{I}\sigma^2_e=\mathbf{G}\sigma^2_g + \mathbf{I}\sigma^2_e$
このとき$\mathbf{G}$は原因遺伝的座位における個人ペアの遺伝的血縁関係行列genetic relationship matrixである。
この式は、古典的な遺伝率の定義（$h^2=\sigma_g^2/\sigma_p^2$）と等価である。（続きます）

HumanGenomics

2015年12月17日木曜日

LDスコア回帰（１）

Peter Visscherモデル（勝手に命名）の復習