カテゴリカルデータの解析 (その1)

カテゴリカルデータの解析

「アンケート」などに代表されるカテゴリカルデータの解析法についてざっとまとめました．Kashiwa.R#3で発表する内容を文章にしたものです．
内容のほぼすべては，『カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)』藤井良宜 2010年共立出版を大いに参考にしています．

要約

xtab()で集計
変数間の関係性を調べるいろいろな方法がある
みかけ上の相関に注意

カテゴリカルデータとは？

連続変数ではなくて，グループで分類されるような変数をもつデータです．
「アンケート」が良い例．グループには，順序グループ (例: なし，軽度，重度) と名義グループ (例: 男性，女性，その他) の2種類があります．
ここでは，データの項目のひとつを「変数」と呼び (例: 症状，性別)，項目に含まれる分類を「カテゴリー」と呼びます (例: {なし，軽度，重度}，{男性，女性，その他})．

データをR上に載せるまで

省略します…．
read.table()関数を使ったり，直にデータフレームを打ち込んだりしてみてください．

個票データと集計データ

個票データ

個票データはひとつひとつの個体情報のリストです．
たとえば，vcdパッケージに含まれるArthritis．これは，関節炎に関する臨床試験のデータで，84人の患者さんひとりひとりの情報が行ごとに記録されているようです．

> install.packages("vcd")
> library(vcd)
> head(Arthritis)
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked

個票データの場合，summary()でそれぞれの変数の概要を知ることができます．

> summary(Arthritis)
       ID          Treatment      Sex          Age          Improved 
 Min.   : 1.00   Placebo:43   Female:59   Min.   :23.00   None  :42  
 1st Qu.:21.75   Treated:41   Male  :25   1st Qu.:46.00   Some  :14  
 Median :42.50                            Median :57.00   Marked:28  
 Mean   :42.50                            Mean   :53.36              
 3rd Qu.:63.25                            3rd Qu.:63.00              
 Max.   :84.00                            Max.   :74.00

集計データ

集計データは，ひとつひとつの個体情報の集計結果です．
同じくvcdパッケージに含まれるDanishWelfareがこれ．アルコール消費量，収入，婚姻状況，住居の情報について，それぞれの変数のそれぞれのカテゴリーの組み合わせごとに，頻度が記録されています．

> head(DanishWelfare)
  Freq Alcohol Income  Status         Urban
1    1      <1   0-50   Widow    Copenhagen
2    4      <1   0-50   Widow SubCopenhagen
3    1      <1   0-50   Widow     LargeCity
4    8      <1   0-50   Widow          City
5    6      <1   0-50   Widow       Country
6   14      <1   0-50 Married    Copenhagen

集計データの場合は，単にsummary()を適用しても意味がありません．

どちらにしてもxtab()

それではどうするかというと，個票データでも集計データでも，まずはxtab()を適用します．xtab()を使うことで，ひとつ以上の変数について，各カテゴリーの組み合わせごとの度数を表す表形式のデータ (クロス表) が得られます．

> # Arthritisで，処置 (Treatment) と病状がどれだけ改善したか (Improved) の
> # カテゴリーの組み合わせごとの頻度．
> (arthritis.imp.tre <- xtabs(~ Improved + Treatment, data = Arthritis))
        Treatment
Improved Placebo Treated
  None        29      13
  Some         7       7
  Marked       7      21
> # DanishWalfareで，アルコール消費量 (Alcohol) と収入 (Income) の
> # カテゴリーの組み合わせごとの頻度．
> (danish.alc.inc <- xtabs(Freq ~ Alcohol + Income, data = DanishWelfare))
       Income
Alcohol 0-50 50-100 100-150 >150
    <1   382    748     273  936
    1-2  150    567     437  929
    >2    34    161     144  383

個票データではデータのカウント数を指定しないのに対し，集計データでは頻度 (Freq) を指定しているのに注意してください．
なんとも簡単に集計作業ができてしまいます:)

度数でなく割合を見たいときにはprop.table()関数を使います．
marginで，何に対する割合にするかを指定します．

> round(prop.table(arthritis.imp.tre, margin = 2), 2)
        Treatment
Improved Placebo Treated
  None      0.67    0.32
  Some      0.16    0.17
  Marked    0.16    0.51
> # アルコール摂取量 (Alcohol) ごとのそれぞれの収入状況 (Income) の割合
> round(prop.table(danish.alc.inc, margin = 1), 2)
       Income
Alcohol 0-50 50-100 100-150 >150
    <1  0.16   0.32    0.12 0.40
    1-2 0.07   0.27    0.21 0.45
    >2  0.05   0.22    0.20 0.53

xtabs()を用いた操作をマスターすれば，カテゴリカルデータを解析する作業が非常に楽になります．
table()関数でも同じことができるようですが，ここでは省略してしまいます:(

その2 につづく