集団遺伝学 (遺伝的浮動1)

集団遺伝学の基礎について，授業の復習をメインにまとめてみます．
「適応進化遺伝学」テキストを参考にしています．
自分の学習用ですので，間違いなどあるかもしれません．

遺伝的浮動

集団の大きさが有限であれば，偶然の効果によるゆらぎの影響力が無視できなくなってくる．
ここでは，集団サイズを有限としたときに，「偶然」だけでどこまでのことがおこり得るかを，確率論的なモデルで取り扱う．

概念

遺伝的浮動 (random genetic drift) とは，遺伝子頻度の偶然による変動のこと．自然集団で，実際に次代をつくるのに寄与する配偶子が少数に限られることから生じる．抽出効果 (sampling effect) ともいう．
モデルとしては，配偶子プールは大きさ無限大だが，次代の有限なN個体に寄与する配偶子として抽出されるのは，雄性・雌性配偶子あわせて2N個のみ (2倍体雌雄生物の場合)，というようなもの．ポイントは，抽出された配偶子中の遺伝子頻度と配偶子プールの遺伝子頻度が必ずしも一致しないこと．この過程が繰り返せば，偶然だけでallele頻度が変化していく．

遺伝子頻度の変化

ひとつの集団中において，あるallele Aの初期頻度を $p_0$ とする．抽出した2N個の配偶子中にi個のAが含まれる確率は二項分布にしたがうので，
$P(\frac{i}{2N}) = {}_{2N}C_i p_0^i (1 - p_0)^{2N-i}$
となる．

Nが十分大きく $p_0$ が十分小さい場合，確率はポアソン分布で近似でき，
$P(\frac{i}{2N}) = \frac{m^i}{i!} e^{-m}$
と書ける． $m$ は期待値で， $2Np_0$ (下記参照)．

1世代後のAの個数の期待値は $2Np_0$ なので，遺伝子頻度の期待値は
$E(p_1) = p_0$ ．
つまり，初期頻度から変化しない．

一方，1世代後のAの個数の分散は $2Np_0 (1 - p_0)$ なので※1，遺伝子頻度の分散は
$V(p_1) = \frac{p_0 (1 - p_0)}{2N}$ ．
つまり，集団が小さいほど大きい．

このことから，世代を経ても遺伝子頻度の期待値は初期頻度と変わらないが，分散は世代時間に対して直線的に大きくなっていく．ということがわかる．
ちなみに， $\frac{t}{2N} << 1$ のとき，遺伝子頻度の分散の期待値は，
$V(p_t) = p_0 (1 - p_0) (1 - (1 - \frac{1}{2N})^t)$ [式1]
であり，これは
$V(p_t) = p_0 (1 - p_0) \frac{t}{2N}$ [式2]
と近似できるそう※2．

拡散モデル

初期頻度から出発して，遺伝的浮動を経て固定に至るまでの過程は，拡散モデルで近似されている (近似しないと，膨大な計算量が必要になる)．拡散モデルを理解するには高度な数学の知識が必要になるそうなのでここでは取り上げないが，結果に関しては後に触れる．

集団分化

遺伝子頻度の分散

遺伝的浮動は，集団の遺伝子頻度構成の分化をもたらす．そして，集団分化の程度は，集団間での遺伝子頻度の分散として表現できる (分散が大きいほど分化してると考えることができる)．式1より，遺伝子頻度の分散は $0$ (最小: どの集団も同じ頻度構成) から $p_0 (1 - p_0)$ (最大: 全集団のうち $p_0$ ではAが固定， $1-p_0$ ではAが消失) までの値をとり得る．そこで，最大値に対する分散の値が以下で定義され，
$\frac{V(p\)}{p_0 (1 - p_0)} = F_{ST} = 1 - (1 - \frac{1}{2N})^t$ [式3]
これが分集団化の指標 (遺伝的浮動の指標でもある) となる．

ヘテロ接合度

新たな変異が供給されなければ，遺伝的浮動の過程は，集団の多様性を減少させていく．これはヘテロ接合度が減少していくことでもあるので，式3はヘテロ接合度を使って書き直せる．

まず，分散の公式は以下のとおり．
$V(p\) = E(p^2) - E(p\)^2$

ここで， $E(p^2)$ はHWEを仮定したallele Aの，分集団でのホモ接合度の期待値とみなすことができる (！)．そして $E(p\)$ は，総合集団 (すべての分集団の混合集団) の遺伝子頻度であり， $E(p\)^2$ は総合集団のホモ接合度の期待値とみなすことができる．(ここ重要)

分散の公式から導かれるのは，遺伝的浮動が進むと，分集団のホモ接合度は総合集団のホモ接合度より大きくなっていく (固定や消失がおこっているからですね)，ということ．
すべてのalleleについて上記の式を適用し，足し合わせると，以下のようになる．
$\Sigma V(p\) = \Sigma E(p^2) - \Sigma E(p\)^2$ [式4]

式4の左辺は，式3を代入して展開すると，
$\Sigma V(p\) = F_{ST} \Sigma p_0 (1 - p_0)\\ = F_{ST}(\Sigma p_0 - \Sigma p_0^2)\\ = F_{ST}(1 - \Sigma p_0^2)$
となる．
$\Sigma p_0^2$ は，HWE下の総合集団での時間0におけるホモ接合度を意味するので， $1 - \Sigma p_0^2$ は同条件下での総合集団のヘテロ接合度 $H_T$ (total population のT) である．
よって，式4の左辺は
$\Sigma V(p\) = H_T F_{ST}$
と書ける．

一方，式4の右辺の $\Sigma E(p^2)$ は，HWEを仮定した分集団のホモ接合度の期待値なので，分集団のヘテロ接合度 $\overline{H_S}$ (subpopulationのS)を用いて $1 - \overline{H_S}$ と書ける．右辺の $\Sigma E(p\)^2$ は同じく総合集団のホモ接合度の期待値なので， $1 - H_T$ と書ける．

これより，式4は
$H_T F_{ST} = \overline{H_S}$
と書き表すことができ，この式より
$F_{ST} = \frac{H_T - \overline{H_S}}{H_T}$ [式5]
が得られる． $F_{ST}$ は，遺伝的浮動の過程 (分集団化の進行) で，分集団のヘテロ接合度が総合集団のヘテロ接合度より小さくなっていく程度を表す指標である．

さらに，式5より
$\overline{H_S} = H_T (1 - F_{ST})$
であり，式1を利用すると
$\overline{H_S} = H_T (1 - \frac{1}{2N})^t$
が得られる．分集団のヘテロ接合度は，毎代 $\frac{1}{2N}$ の割合で低下していくということであり，集団サイズが小さいほど速く0に近づくことを示している．

集団の階層構造

分集団内の実際のヘテロ接合度 $H_I$ (individualsのI) とHWEから推定したヘテロ接合度 $H_S$ の違いの大きさを
$F_{IS} = \frac{H_S - H_I}{H_S}$
という指標で評価できる．
生殖隔離などがあり，集団のなかにさらに分集団がある (集団に階層構造がある) とき，各分集団ではalleleが固定・消失して多様性が減少していくのに対し，それぞれの分集団は異なるalleleを保持しているので，集団全体で見るとalleleは多様であり得る．このとき，HWEから計算される集団全体のヘテロ接合度は，実際の値より高くなる．
$F_{IS}$ は集団の階層構造という観点より，HWEからの逸脱を評価する指標である．

分集団間での平均をとり，
$F_{IS} = \frac{\overline{H_S} - \overline{H_I}}{\overline{H_S}}$
と定義すると，
$1 - F_{IS} = \frac{\overline{H_I}}{\overline{H_S}}$ であり，
式5より
$1 - F_{ST} = \frac{\overline{H_S}}{H_T}$ でもあるから，
$(1 - F_{IS})(1 - F_{ST}) = \frac{\overline{H_I}}{H_T}$ となる．
$(1 - F_{IS})(1 - F_{ST}) = 1 - F_{IT}$ [式6]
と定義すると，
$F_{IT} = \frac{H_T - \overline{H_I}}{H_T}$ [式7]
となる．
式7は，HWEから推定した総合集団のヘテロ接合度 $H_T$ と，実際のヘテロ接合度の分集団平均 $\overline{H_I}$ の違いの大きさを評価する指標である．
分集団化は，交配範囲が限定されているという意味で，近親婚構造とみなすこともできる．

固定指数

用語

・集団から抽出した2つの遺伝子が，共通の祖先遺伝子に由来することを，coalescenceするという．
・ある配列セットに対し， $t$ 世代前までのあいだのどこかでcolescenceがおこる確率を $C_t$ とする．
・それらの配列が同一である (つまり突然変異がおこっていない) 場合，由来により同一 (identical by descent) という関係となる．
・ $t$ 世代前までの複製以降IBDである確率を，固定指数 (fixation index) といい， $F_t$ と表記する．
・固定指数は，集団内にひとつの遺伝子の由来がどの程度広まっているかを表すと見ることもでき，集団構成員の近親度を表す指標として近親婚係数 (inbreeding coefficient) とも呼ばれる．

coalescence確率

集団の大きさを $N$ として， $F_t$ を数式で表現する．簡便のため，突然変異はおこらないと考える．
まず，集団から無作為に選んだふたつの遺伝子が，1世代前にcoalescenceする確率は，親世代の $2N$ 個の遺伝子のうち特定のひとつに由来する確率なので， $\frac{1}{2N}$ となる．
次に，1世代前ではcoalescenceせず，それ以前のt-1世代の間にcoalescenceする確率は， $(1 - \frac{1}{2N}) F_{t-1}$ である．
よって，t世代前までのあいだにふたつの配列がcoalescenceする確率は，これらふたつの確率を足して，
$F_t = \frac{1}{2N} + (1 - \frac{1}{2N}) F_{t-1}$
となる．
これは漸化式なので，解くと，
$F_t = 1 - (1 - \frac{1}{2N})^t$ [式8]
となる．
(初期世代ではふたつの遺伝子はcoalescenceしていないので， $F_0 = 0$ )

式8は，少なくともt世代前までにcoalescenceがおこる確率 (1 - t世代前まで毎代coalescenceがおこらない確率) と見ることもできる．
式8からわかるように， $F_t$ の増加は集団が小さいほど急である．

固定指数と集団分化指数の関係

式1と式8を比べると，集団内にひとつの由来の遺伝子が広まっている ( $F_t$ が小さい) ほど遺伝子頻度の分散の期待値が小さいことがわかる．
また，式3と式8を比べると， $F_t$ は集団分化の指標である $F_{ST}$ と一致することがわかる．つまり，ふたつの遺伝子の由来が遠ければ遠いほど，同じだけ集団分化も進んでいることがわかる．

式5の $F_{ST}$ を $F_T$ に書き換えると，
$\overline{H_S} = H_T (1 - F_t)$ [式9]
となる．分集団中の割合 $F_t$ の遺伝子は始原集団のある1分子からの複製に由来しているため，新たな変異が供給されなければ，ヘテロ接合度は0である．また，分集団中の割合 $1- F_t$ の遺伝子は始原集団中の互いに異なる分子に由来しおり，始原集団での遺伝子構成を今も残している (つまりヘテロ接合度は $H_T$ ) と考えることができる．したがって，分集団中のヘテロ接合体の割合は，式9のように，これら両方の積として得られる．

ところで， $F_t = F_{ST}$ が成り立つのは，ひとつの始原集団から同じサイズの集団が同時に分化していくという理想状態のみであり，実際の系統関係はこのようにはおこらない．それでも $F_{ST}$ は集団分化の指標として有用で，集団のヘテロ接合度が遺伝的浮動によって変化してく様子を近似するのに役立つ．
ただ， $F_{ST}$ は無限の分集団間の全体について分化の程度を表すので，これをごく少数の集団間の遺伝的距離として使うのは不適切 (確率的なゆらぎのため，総合集団の遺伝子頻度が始原集団の遺伝子頻度と同じとは限らなくなる)．

遺伝的浮動2 につづく

注

※1 分散の公式は， $V(X) = E(X^2) - E(X)^2$ ．
※2 『分子進化遺伝学』根井正利著, 五條堀孝・斎藤成也訳. 培風館 1990年. 参照のこと．