irisの正体 (R Advent Calendar 2012 6日目)

R Advent Calendar 2012の6日目です.


Rのデータセットでもっとも有名なのが,irisではないでしょうか.FisherもしくはAndersonのアヤメの計測データですね.しかし,有名なわりには,このデータセットの正体はそれほどよく知られていないように思います (私もよく知らずに使っていました).


そこで,このエントリでは,どんな研究でirisデータセットが報告されたのか,元の論文2報について,その概要を述べてみたいと思います ※1




アヤメ

Iris属 (アヤメ属) はアヤメ科に含まれる属のうちのひとつで,世界の温帯に150種が知られているようです (アヤメ属 - Wikipedia).irisデータセットに含まれるIris setosaIris versicolorIris virginicaは,このアヤメ属に含まれる植物のうちの3種です.


どんな論文で報告されたの?

米国の植物学者Edgar Andersonによって1936年に発表された研究のなかで,もともとの計測が行なわれています (Anderson, 1936 ※2).数値データが報告されたのは,英国の統計学者Ronald Aylmer Fisherの1936年の論文です (Fisher, 1936 ※3).


Andersonの研究

アヤメ属の3種 (Iris setosaIris versicolorIris virginica) の種分化について,形態,遺伝,生態,進化の考察を行なった大論文です.
論旨をごく簡単にまとめると,以下になります.
  • setosaに比べて,versicolorとvirginicaの形態はよく似ている.
  • setosaとの違いは,virsinicaのほうが大きく,versicolorで小さい.
  • versicolorは,setosaとvirginicaの雑種に由来しているかもしれない.

以下に,論文中のいろんなトピックを述べてみました.しかし,生物学の専門用語なんかもでてきてしまったので,難しいようでしたら読み飛ばしてください.


形態

大きさや形の特徴を比べています.全体的な形態はよく似ているが,sepal (がく片) とpetal (花弁) の長さ・幅が,特に種間で異なる特徴である,と述べられています ※4


分布

以下のようになっているそうです.
  • setosaは亜北極帯に,virginicaはもっと南に分布し,生息域は重なっていない.
  • setosaとversicolorの分布域は重なるが,交配は稀.
  • virsicolarとvirginicaの分布域が重なるところでは交配が確認されている.


核相

染色体数は,setosaで38本,virginicaで70-72本,vergicolarで108本であり,virsinicaは二倍体で,versicolorはsetosaとvirsinicaの複二倍体ではないかと考察しています.
まあつまり,{setosaの38 + virginicaの70 = versicolorの108} ということを言いたいわけですね.


種分化のプロセス

アヤメ属はもともと雑種形成がさかんな種で,コロニーをつくるその生息様式と関連して,氷期 (最終氷期?) の前か間氷期くらいの昔に,種分化が起こったのではないか,と考察しているようです.


sepal (がく片) とpetal (花弁) ※4

これらは,3種の分類に利用できる形態的な特徴として,論文中でも中心的なデータとして提示されています.
まず,sepalとpetalの図です.右からsetosa,versicolor,virginicaで,sepalは左側,petalは右側です.

irisのデータは,これらの長さと幅を測った結果だったわけですね ※5


以下のように,Andersonは,長さ・幅に対応する長方形を作成し,sepalとpetalでの差分を示すことで,種間の違いを視覚的に提示しています.


ついでに

謝辞には,S Wright,JBS Haldane,RA Fisherといった集団遺伝学の大家が名を連ねています.この研究が行なわれた頃,Andersonは英国の研究所の特別研究員に招かれ,HaldaneやFisherと共同研究をしていたようです (Edgar Anderson - Wikipedia).こんな経緯があり,Fisher (1963) でAndersonの計測データが使われることになったりしているのでしょうか.


Fisherの研究

多変数の線形判別分析の理論を提示したあと,Andersonの計測したアヤメsepal・petalの長さ・幅データにその方法を適用しています.
判別分析に関しては,Rと判別分析 (フリーソフトによるデータ解析・マイニング 第17回) などが参考になるかと思います.


結果

  • setosaに比べて,versicolorとvirginicaはよく似ており,判別がときに困難である.
  • setosaとの違いは,virsinicaのほうが大きく,versicolorで小さい.
というAndersonや先行研究と違わないものになっています.


ついでに

発表された雑誌が"Annals of Eugenics" (『優生学紀要』) だったりするあたり,時代を感じますね….


まとめ

Anderson (1936) の趣旨は,以下の2点でした.
  • 形態的に,Iris versicolorIris virginicaは似ている一方,Iris setosaとは異なっており,違いはIris virginicaのほうでより大きい.
  • 形態,分布,遺伝,生態,進化に関する証拠より,Iris versicolorは,Iris setosaIris virginicaの雑種 (複二倍体) に由来するかもしれない.

Fisher (1936) は,Anderson (1936) で計測されたデータを利用して,多変数の線形判別分析を行ないました.



ということで,本エントリの内容は以上なのですが,あまりにRと関係ない話題なので,ちょっと心が痛んできました.ですので,申し訳程度にコードを載せておきます.どうぞ参考になさってください.

?iris


※1 そうは言ったものの,植物系統分類学は学部の授業で習ったくらいで,論文もざっと読んだ程度ですし,最新の分子生物学がアヤメの種分化に関する知見をどのくらいアップデートさせたかも知りませんので,もしお詳しい方いらっしゃいましたら,つっこみやコメントをくださいましたら幸いです.


※2 Anderson E. 1936. The Species Problem in Iris. Annals of the Missouri Botanical Garden 23:457-509.
http://biostor.org/reference/11559
(CC BY-NCで公開されています.フォントがなんだか優雅な論文です)


※3 Fisher RA. 1936. The use of multiple measurements in taxonomic problems. Annals of Eugenics 7:179-188.
http://onlinelibrary.wiley.com/doi/10.1111/j.1469-1809.1936.tb02137.x/abstract


※4 アヤメの場合,正確には「がく片」「花弁」はそれぞれ「外花被片」「内花被片」と呼ぶそうですが (アヤメ - 国立科学博物館),ここではややこしくなるので単純に「がく片」「花弁」と呼びました.


※5 実際の花ではこんなふうになっているようです → ヒオウギアヤメ(檜扇文目) - 群馬大 青木先生のサイト