集団遺伝学 (遺伝的浮動2)

集団遺伝学の基礎について,授業の復習をメインにまとめてみます.
「適応進化遺伝学」テキストを参考にしています.
自分の学習用ですので,間違いなどあるかもしれません.

遺伝的浮動1からのつづき

有効集団サイズ

遺伝的浮動に関係するのは,繁殖まできちんとたどりつけた個体の数で,たいていこれは見かけ上の集団個体数より小さい.この問題を一般的に扱う概念が有効集団サイズ (effective population number) であり,記号N_eで表記される.

たとえば,
式8より,(1 - \frac{1}{2N_e})^t = (1 - \frac{1}{2N_{t-1}})(1 - \frac{1}{2N_{t-2}}) \cdots (1 - \frac{1}{2N_0})
であり,右辺は(1 - \frac{t}{2N_e}),左辺は1 - \sum^{t-1}_{i=0}\frac{1}{2N_i}近似できる.
よって
\frac{1}{N_e} = \frac{1}{t}(\frac{1}{N_1} + \frac{1}{N_1} + \cdots + \frac{1}{N_t})
となり,どんなに普段Nが大きくても,1回でも急激な集団縮小がおこれば,有効集団サイズは急に小さくなる (それゆえ変異性が大きく影響される) ことになる.これは,ボトルネック効果を表している.


また,雄と雌で繁殖個体数に差がある場合,雄と雌の個体数をそれぞれN_mN_fとすると,
N_e = \frac{4N_m N_f}{N_m + N_f}
が得られる.
つまり,雄が無限にいても,繁殖に関わる雌が1個体しかいなければ,N_e = 4にしかならない.


coalescence time

集団中の遺伝子がcoalescenceするまでにさかのぼらなければならない時間の期待値.逆に考えれば,集団に1個生じた遺伝子が,遺伝的浮動によって固定するまでにかかる時間の期待値も求められる.

集団中のn個の遺伝子のどれかに,t世代前にはじめてcoalescenceがおこる待ち時間をtとし,その確率分布をP(t)とする.t世代前までのどこかでcoalescenceする確率であるC_tF_t (突然変異がおこらないと仮定した場合) とは異なるので注意.


最後の1世代以外はずっとcoalescenceしない確率なので,1世代のあいだにcoalescenceがおこる確率をC_1とおくと,
coalescence確率は P(t) = C_1 (1 - C_1)^{t-1}
待ち時間の期待値は \overline{t} = \sum^{\infty}_{t=1} {}_tC_1(1 - C_1)^{t-1}
で与えられる.
1世代前でcoalescenceしない確率1 - C_1Dとおくと,
\overline{t} = C_1 (1 + 2D + 3D^2 + \cdots)
ここで S_n = 1 + 2D + 3D^2 + \cdots+ nD^{n-1} とおいて,S_n - DS_n を考えると,
 (1 - D) S_n = 1 + D + D^2 + \cdots + D^{n-1} - nD^n
さらに X = 1 + D + D^2 + \cdots+ D^{n-1} とおいて,X - DX を考えると,
X = \frac{1 - D^n}{1 - D}
したがって,
 (1 - D)S_n = \frac{1 - D^n}{1 - D} - nD^n すなわち
 S_n = \frac{1 - D^n}{C_1^2} - \frac{nD^n}{C_1}
ここで,\lim_{n\rightarrow\infty}nDn = 0\lim_{n\rightarrow\infty}D^n = 0なので,
 \lim_{n\rightarrow\infty}S_n = \frac{1}{C_1^2}
よって,
\overline{t} = \frac{1}{C_1} [式10]
つまり,coalescenceがおこるまでに待ち時間の期待値は,1世代でcoalescenceする確率の逆数となる.


2点のサンプルが1世代前にcoalescenceする確率はC_1[n = 2] = \frac{1}{2N_e}なので,集団中から無作為に選んだ2つの遺伝子がcoalescenceする待ち時間の期待値は,
\overline{t_2} = 2N_e 世代となる.


次に,n点のサンプルが1個にcoalescenceする待ち時間を考える.1世代前にn個のサンプルのどれかにcoalescenceがおこる確率C_1(n)は,どれもcoalescenceしない場合の補集合であるから,
C_1(n) = 1 - \frac{2N_e - 1}{2N_e} \frac{2N_e - 2}{2N_e} \frac{2N_e - 3}{2N_e} \cdots \frac{2N_e - (n - 1)}{2N_e}
N_eが十分大きく,nN_eより十分小さければ,近似を用いて
C_1(n) \approx 1 - (\frac{1}{2N_e}(1 + 2 + 3 + \cdots + n-1)) = \frac{1}{2N_e} \frac{n (n - 1}{2} = \frac{n (n - 1)}{4N_e}
となる.3つ以上が同時にcoalescenceする確率は無視できるほど小さいと考えている.


よって式10より,n個のサンプルがn-1個にcoalescenceする待ち時間の期待値は
\overline{t_n} = \frac{4N_e}{n(n-1)}となる.
また,n個のサンプルがすべて1個にcoalescenceする待ち時間 (Most Recent Common Ancesterまでの時間) の期待値は,
T_{MRCA} = \sum_{i=2}^n \overline{t_1} = \sum_{i=2}^n \frac{4N_e}{i(i-1)} = 4N_e \sum_{i=2}^n (\frac{1}{i - 1} - \frac{1}{i}) = 4N_e(1 - \frac{1}{n}) 世代となる. [式11]
サンプル数が十分大きければ,集団の全遺伝子がcoalescenceする待ち時間の期待値は4_N_e世代となる.


突然変異と遺伝的浮動

突然変異によって新しい変異が供給されるときに,遺伝的浮動がどうなるか考える.

固定指数

世代あたりの突然変異率をu,有効集団サイズをN_eとする.突然変異がおこるという仮定のもとでも,集団から無作為抽出した2つの遺伝子がt世代前までにcoalescenceする確率は,式8と同様に
C_t = 1 - (1 - \frac{1}{2N_e})^t [式12]
となる.
その一方,固定指数F_tはこの式では表せない (対象とする配列が同一であることを前提とするため.突然変異があれば,共通祖先の複製に由来するものでも配列が異なり得る).この場合F_tは,集団から無作為抽出した2つの遺伝子がt世代前までのどこかの複製に由来し,かつ突然変異を免れ続けている確率になるので,
F_t = (\frac{1}{2N_e} + (1 - \frac{1}{2N_e})F_{t-1})(1 - u)^2 [式13]
となる.これは漸化式なので,t-1世代までのすべてで突然変異を免れる確率が前提に含まれている.


突然変異によって,同一コピー数はどこかで平衡状態になる.平衡点では,複製コピーが増えた分だけ突然変異が生じるようなイメージ.
平衡状態ではF_t = F_{t-1}なので,これを\hat{F}と書いて式13を変形すると,
\hat{F} = (\frac{1}{2N_e} + (1 - \frac{1}{2N_e})\hat{F})(1 - u)^2 \\ = \frac{(1 - u)^2}{2N_e - (2N_e - 1)(1 - u)^2} \\ \approx \frac{1 -2u}{4N_e u + 1 - \\ \approx \frac{1}{4N_e u + 1} \\ = \frac{1}{\Theta + 1} [式14]
となる (u << 1のため2u = 0u^2 = 0と近似).
4N_em = \Thetaは集団の多様性を決定する要となる重要なパラメータで,集団の1世代あたりにあらわれる変異の数なので,集団突然変異率 (population mutation rate) とも呼ばれる.


平衡状態でのヘテロ接合度

有限時間内で,突然変異率が十分小さければ,まったく同一の変異はおこらないと考えて良く,常に新規のalleleがつくりだされる (無限アレルモデル infinite allele model).突然変異と遺伝的浮動のもとでの集団内多様性は,1-C_tの割合のもともと異なる遺伝子と,複製に由来するが突然変異を受けたC_t - F_tの割合の遺伝子から生じる.平衡状態での集団のヘテロ接合度を,式9のように平衡状態に達した多くの分集団のヘテロ接合度の平均値\overline{H_S}と考えると,
\hat{H} = \overline{H_S} = H_T(1-C_t) + C_t - F_t [式15]
が与えられる.突然変異がなければC_t = F_tで,式9と式15は同じになる.
平衡状態であればC_t = 1なので,式15より,
\hat{H} = 1 - F_t = \frac{4N_em}{4N_em + 1} = \frac{\Theta}{\Theta + 1} [式16]
となる.


N_em << 1つまりu << \frac{1}{N_e}の場合,突然変異の効果が遺伝的浮動の効果よりずっと小さい.このとき\hat{H} \leftarrow 0となり,あるalleleへの固定がおこる.
N_em >> 1つまりu >> \frac{1}{N_e}の場合,突然変異の効果が遺伝的浮動の効果よりずっと大きい.このとき\hat{H} \leftarrow 1となり,集団には常に多様性があることになる.
4N_em >> 1の状態なら自,然選択のはたらきなしでも,集団内に非常にたくさんの変異が保持されることになる.ゲノムレベルで見るとヘテロ接合度は実質的に1 (非常に大きい値) となり,中立論の論拠のひとつを与えている.


平衡状態でのallele種類数

突然変異と遺伝的浮動の平衡状態にある集団では,無作為抽出したn個の遺伝子に何種類のalleleがあるかを予測できる.alleleの数をkとして,その期待値は,
E(k) = 1 + \frac{\Theta}{\Theta + 1} + \frac{\Theta}{\Theta + 2} + \cdots + \frac{\Theta}{\Theta + n - 1} [式17]
となる (Ewensの式).


個体群動態の検証

遺伝的浮動と突然変異の平衡状態では,allele種類数の頻度分布が予測できる.この分布は,alleleがk種類あるときn個のサンプル中にそれぞれが何個ずつあるかの確率
Pr\{n1, n2, \cdots ,n_k\} = \frac{n! \Theta^k}{k! n_1 n_2 \cdots n_k S_n(\Theta)} [式18]
ただし S_n(\Theta) = \Theta (\Theta + 1)(\Theta + 2) \cdots (\Theta + n -1)
から求められる (Ewens-Wattersonの式).
このallele頻度スペクトルは,集団サイズが世代間で一定かつ,中立選択を前提としている.したがって,観察データがこの式の予測とずれた場合には,これらの前提が成り立っていないことが示唆される.
すなわち,
低頻度alleleの種類数が多く,高頻度alleleの種類数が少ない場合:
  • ボトルネック創始者効果がおこって変異性が低下してから十分に時間が経っていない
  • 集団サイズが拡大中で平衡に達していない
  • 遺伝子頻度構成の大きく異なる集団が少数だけ流入して間もない
  • selettive sweepや弱有害による浄化淘汰がはたらいている
低頻度alleleの種類数が少なく,高頻度alleleの種類数が多い場合:
  • 集団サイズが縮小しており,低頻度alleleの消失が優先的におきている
  • 遺伝子頻度構成の大きく異なる集団が多数混合して間もない
  • 平衡選択がおきている
となる.


移住と遺伝的浮動

変異性は移住によっても供給され,一般に移住率は突然変異率よりずっと大きい.また,移住は突然変異と違って,集団分化を妨げる方向にはたらく.


固定指数と移住

単純なisland model (分岐した多くの分集団があり,各集団から割合mの遺伝子を無作為抽出→混ぜあわせ→再分配) のもとでの移住パターンを考える.
mは世代あたりの移住率,N_eは有効集団サイズとする.C_t (集団から無作為抽出した2つの遺伝子がt世代前までにcoalescenceする確率) は,式13のときと同様に,
C_t = (\frac{1}{2N_e} + (1 - \frac{1}{2N_e})C_{t-1})(1 - m)^2 [式19]
で与えられる.突然変異を無視すれば,固定指数F_tは[texC_t]と同じになり,
F_t = (\frac{1}{2N_e} + (1 - \frac{1}{2N_e})F_{t-1})(1 - m)^2 [式20]
これは漸化式なので,t-1世代までのすべてで移住を免れる確率が前提に含まれている.


移住と遺伝的浮動が平衡状態になると,遺伝的浮動によって複製コピーが増えた分だけ,それらが移出しかわりに移入がおこる,というような状態になる.
平衡状態ではC_t = C_{t-1}なので,これを\hat{C}として式13のときのように変形すると,
\hat{C} = \hat{F} \approx \frac{1}{4N_em + 1} [式21]
が得られる.

平衡状態でのヘテロ接合度

island modelのもとでは,移入によって供給される遺伝子は総合集団のallele頻度と同一になる.そのため,平衡状態でのヘテロ接合度\hat{H}は式15・16と同様に考えて,
\hat{H} \approx \frac{4N_em}{4N_em + 1} H_T [式22]
となる.


N_em << 1つまりu << \frac{1}{N_e}の場合,移住の効果が遺伝的浮動の効果よりずっと小さい.このとき\hat{H} \leftarrow 0となり,移住を考慮しない場合と同じになる (あるalleleへの固定がおこる).
N_em >> 1つまりu >> \frac{1}{N_e}の場合,突然変異の効果が遺伝的浮動の効果よりずっと大きい.このとき\hat{H} \leftarrow 1となり,集団分化していないのと同じになる (集団には常に多様性があることになる).
4N_em >> 1の状態なら自,然選択のはたらきなしでも,集団内に非常にたくさんの変異が保持されることになる.ゲノムレベルで見るとヘテロ接合度は実質的に1 (非常に大きい値) となり,中立論の論拠のひとつを与えている.


移住だけでなく突然変異を考慮しても,C_tの漸化式は式19と,平衡式は式21と変わらない.
一方,固定指数は変化する.ある遺伝子が移入でも突然変異でもない確率は
(1 - m)(1 - u) \approx 1 - (m + u)
となり (mu << m + u << 1という近似を利用),
漸化式は
F_t = (\frac{1}{2N_e} + (1 - \frac{1}{2N_e})F_{t-1})(1 - (m + u))^2 [式23]
平衡式は
\hat{F} \approx \frac{1}{4N_e (m + u) + 1} [式24]
となる.
通常はm >> uであるため,
\hat{F} \approx \hat{F} \approx \frac{1}{4N_em + 1}
\hat{H} = \frac{4N_em}{4N_em + 1} H_T
と考えて差し支えない.


移住率

移住と遺伝的浮動が平衡に達しているとき,F_{ST} = \hat{F}とみなすことができる.式21より,
N_em = \frac{1}{4}(\frac{1}{F_{ST}} - 1) [式25]
と推定される.
複数の集団の遺伝子頻度を測定し,ヘテロ接合度をHWEから推定することで,island modelのもとでの世代あたり移入個体数を推定できる.多くの仮定が含まれるが,移住率の有効な目安になる.