데이터셋을 나누어 하위 데이터셋을 만들 경우가 많다.
데이터의 양이 커서 쪼개는데 사용할까? 사실 이 경우는 별로 없을 듯 하다.
변수의 종류에는 범주형(명목형)이 있다. 이러한 변수유형이 담겨있는 데이터셋이 당연히 많다. 이 경우 범주형 변수별로 하위데이터셋을 만들면 편한 경우가 있다.
예를 들어서, 차이여부(변화)를 파악하고자 하는 t-검정 또는 Wilcoxon ___검정에서 paired t-test/Wilcoxon signed-rank test를 진행할 경우가 있다.
아쉽게도 R Commander의 기능에는 이러한 범주별 차이검정 방법이 한번에 되지 않는다. 다른 말로 하면, 특정 변수의 내용을 쪼개서 관련된 것만 차이검정을 할 수 없다는 것이다.
(R Commander - Statistics - Mean - ... .... )
이 경우, 먼저 하위데이터셋을 만들어서 원하는 변수의 해당 범주자료를 따로 담고, 그 다음에 이 데이터셋을 검정기법에 사용하면 된다.
"활성화 데이터셋"에 대한 기능 중에서 "하위데이터셋(Subset)"이 있는데, 이것을 "subset expression" 칸에 적어주면 된다.
예를 들어, 변수 이름이 "President"이고, 그 안에 smlee, bsyoon, jhpark, ghchoi, dhchun, twroh, yskim, djkim, mhroh, mblee 등이 있다고 하자.
President==mblee 라는 것을 subset expression(하위데이터셋)에 입력하면, president 라는 변수중에서 mblee에 해당되는 부분만 선택한다는 뜻이다.