개요

이번 포스팅에는 그룹핑 관련 함수와 도표 데이터를 다루기 시작하는것 까지 진행한다.

코드중심의 설명이기 때문에 본문 보다는 코드의 주석이 집중적으로 추가되어 있으니 참고 바란다.

tapply 함수 사용하기

이미 배운 tapply 함수를 데이터프레임에서는 그룹핑에 활용 할 수 있다.

> attach(mtcars)

> tapply(mpg, am, mean) # mpg값을 am값으로 group화 하여 평균값(mean)을 구한다.
       0        1
17.14737 24.39231

> tapply(mpg, am, mean, na.rm=TRUE) # na.rm을 이용하여 평균값을 구할때 na값을 제거한다는 뜻이다.
       0        1
17.14737 24.39231

> detach(mtcars)

알아두면 좋은 점은 tapply 2번째 인지값은 리스트를 지정해야 한다는 것이다.

> attach(mtcars)

> tapply(mpg, list(am, cyl), mean)
       4        6     8
0 22.900 19.12500 15.05
1 28.075 20.56667 15.40

> detach(mtcars)

aggregate 함수

aggregate 함수를 이용하여서도 그룹별 데이터를 조회해볼 수 있다.

> vars <- c("mpg", "hp", "wt")

> aggregate(mtcars[vars], by=list(am=mtcars$am), mean) # mtcars 데이터로 am값을 이용하여 평균값을 구한다.
am mpg hp wt
1 0 17.14737 160.2632 3.768895
2 1 24.39231 126.8462 2.411000

> aggregate(mtcars[vars], by=list(am=mtcars$am), sd) # mtcars 데이터로 am값을 이용하여 표준편차를 구한다.
am mpg hp wt
1 0 3.833966 53.90820 0.7774001
2 1 6.166504 84.06232 0.6169816

y~x aggregation 표현식

가장 많이 사용하는 방법은 아래의 방법으로써 y~x 표현식을 쓰면 표기가 더 간단해진다.

이부분은 y = x라는 함수라는 개념으로 x가 가변인자이고 y는 aggregation 적용 대상이다.

> aggregate(mpg~am, mtcars, mean) # mpg가 y값 am은 x값 개념이다. 즉 am값에 따른 mpg의 평균값이다.
  am      mpg
1  0 17.14737
2  1 24.39231

> aggregate(mpg~am+cyl, mtcars, mean) # am과 cyl조합이 x값, mpg가 y값으로 평균을 구한다.
  am cyl      mpg
1  0   4 22.90000
2  1   4 28.07500
3  0   6 19.12500
4  1   6 20.56667
5  0   8 15.05000
6  1   8 15.40000

> aggregate(cbind(mpg, wt)~am, mtcars, mean) # y값을 여러개 지정하고 싶을때는 cbind를 사용한다.
  am      mpg       wt
1  0 17.14737 3.768895
2  1 24.39231 2.411000

by 함수

안타깝게도 aggregate() 함수는 단일값에 대해서만 적용가능하다.

예를 들어 평균값, 표준편차 등에서는 사용가능하지만 그렇지 않은 통계지표들이 있는데 이럴때는 by() 함수를 사용하면 된다.

> vars <- c("mpg", "hp", "wt")
>  by(mtcars[vars], mtcars$am, summary)
mtcars$am: 0
      mpg              hp              wt       
 Min.   :10.40   Min.   : 62.0   Min.   :2.465  
 1st Qu.:14.95   1st Qu.:116.5   1st Qu.:3.438  
 Median :17.30   Median :175.0   Median :3.520  
 Mean   :17.15   Mean   :160.3   Mean   :3.769  
 3rd Qu.:19.20   3rd Qu.:192.5   3rd Qu.:3.842  
 Max.   :24.40   Max.   :245.0   Max.   :5.424  
------------------------------------------------------------
mtcars$am: 1
      mpg              hp              wt       
 Min.   :15.00   Min.   : 52.0   Min.   :1.513  
 1st Qu.:21.00   1st Qu.: 66.0   1st Qu.:1.935  
 Median :22.80   Median :109.0   Median :2.320  
 Mean   :24.39   Mean   :126.8   Mean   :2.411  
 3rd Qu.:30.40   3rd Qu.:113.0   3rd Qu.:2.780  
 Max.   :33.90   Max.   :335.0   Max.   :3.570

describeBy 함수

psych 패키지describeBy() 함수는 describe() 함수의 그룹핑 버전이라 생각하면 된다.

> library(psych)

> describeBy(mtcars[c("mpg", "wt")], mtcars$am)

 Descriptive statistics by group
group: 0
    vars  n  mean   sd median trimmed  mad   min   max range skew kurtosis   se
mpg    1 19 17.15 3.83  17.30   17.12 3.11 10.40 24.40 14.00 0.01    -0.80 0.88
wt     2 19  3.77 0.78   3.52    3.75 0.45  2.46  5.42  2.96 0.98     0.14 0.18
------------------------------------------------------------
group: 1
    vars  n  mean   sd median trimmed  mad   min   max range skew kurtosis   se
mpg    1 13 24.39 6.17  22.80   24.38 6.67 15.00 33.90 18.90 0.05    -1.46 1.71
wt     2 13  2.41 0.62   2.32    2.39 0.68  1.51  3.57  2.06 0.21    -1.17 0.17

도표 데이터 다루기

이번 시간부터 도표 데이터를 다루는 법을 알아보기로 한다.

CSV -> 테이블 로드

우선 csv를 불러와 테이블로 넣어본다.

CSV 파일은 github에 올려두었다.

> smokeData <- read.csv("/home/lks21c/Downloads/ch4/smoker.csv")

> summary(smokeData)
     Smoke         SES     
 current:116   High  :211  
 former :141   Low   : 93  
 never  : 99   Middle: 52  

> smokerTable <- table(smokeData$Smoke, smokeData$SES) # 행, 열로 지정

> smokerTable

         High Low Middle
 current   51  43     22
 former    92  28     21
 never     68  22      9

margin 함수

margin 함수를 통해 전체, 행, 열별 총 합계를 구할 수 있다.

> margin.table(smokerTable) # 모든 데이터 총 합계
 [1] 356

 > margin.table(smokerTable, 1) # 행 별 데이터 총 합계
 current former never
 116 141 99

 > margin.table(smokerTable, 2) # 열 별 데이터 총 합계
 High Low Middle
 211 93 52

재밌는 점은 margin.table 함수로 계산한 행/열별 데이터를 벡터연산처럼 수행 할 수있다.

이를 통해 각 값들이 차지하는 비율을 확인 할 수 있다.

 > smokerTable / margin.table(smokerTable)
 High Low Middle
 current 0.14325843 0.12078652 0.06179775
 former 0.25842697 0.07865169 0.05898876
 never 0.19101124 0.06179775 0.02528090

 > margin.table(smokerTable, 1) / margin.table(smokerTable)
 current former never
 0.3258427 0.3960674 0.2780899

 > margin.table(smokerTable, 2) / margin.table(smokerTable)
 High Low Middle
 0.5926966 0.2612360 0.1460674

위의 예제는 margin.table로의 연산이 가능한 것을 보여주기 위한 방식이고 실제로 각 값들이 차지하는 비율을 보려면 아래와 같이 prop.table을 사용하면 된다.

 > prop.table(smokerTable)
 High Low Middle
 current 0.14325843 0.12078652 0.06179775
 former 0.25842697 0.07865169 0.05898876
 never 0.19101124 0.06179775 0.02528090

 > prop.table(smokerTable, 1) # by row
 High Low Middle
 current 0.43965517 0.37068966 0.18965517
 former 0.65248227 0.19858156 0.14893617
 never 0.68686869 0.22222222 0.09090909

 > prop.table(smokerTable, 2) # by column
 High Low Middle
 current 0.2417062 0.4623656 0.4230769
 former 0.4360190 0.3010753 0.4038462
 never 0.3222749 0.2365591 0.1730769