사분위수(Quartiles)와 Box plot

2018. 8. 12. 21:22Computer Science

사분위수(Quartiles)와 Box plot



안녕하세요! 오늘은 사분위수와 box plot에 대해 정리해보려고 합니다. 사분위수를 이해해야 box plot을 이해할 수 있어요. 우선 사분위수에 대해서 알려드릴게요!


사분위수 (Quatiles)

데이터가 주어졌을 때, 위치의 기준을 정해서 Q1부터 Q3을 부여해줍니다. 그 기준은 다음과 같아요.


p = 0.25 / 1분위수 / 1st quartile / \(Q_1\)

p = 0.5 / 2분위수 / 2nd quartile / \(Q_2\)

p = 0.75 / 3분위수 / 3rd quartile / \(Q_3\)



Box plot (box whisker plot)

박스플롯은 통계학에서 수치적 자료를 표현하는 그래프입니다.



우선 상자부터 보겠습니다. 상자의 가장 아래는 \(Q_1\), 상자의 가장 위는 \(Q_3\)를 기준으로 그려줍니다. 상자 가운데 보이는 선은 \(Q_2\)이자 중앙값(Median)입니다. 중앙값에 대해 잠시 설명 드리겠습니다.


중앙값이란, 수치 데이터를 크기순으로 정렬한 뒤 정 가운데 있는 값을 말합니다. 평균(Mean)이랑은 비슷한듯 다르죠. [1, 2, 3, 4, 5]와 같이 홀수개의 수치 데이터가 있다고 가정합시다. 이 데이터에서 중앙값은 3입니다. 그러나 [1, 2, 3, 4, 5, 6]과 같은 짝수개의 데이터에서는 정 가운데 값을 골라내기 어렵습니다. 3일까요? 4일까요? 정답은~~~ 3.5 입니다! 데이터가 짝수개일 때 가운데 두 수를 더하고 산술평균을 낸 값이 중앙값이 되겠습니다. 그렇다면 평균과 차이점이 무엇일까요? 평균은 outlier(극단적인 값)에 많은 영향을 받는 반면, 중앙값은 딱히 영향을 받지 않는다는 것 입니다.


다시 그림으로 돌아가서 inner fence란 \(1.5 * IQR\)을 말합니다. outer fence는 그것의 두 배인 \(3 * IQR\)을 의미합니다. outlier는 이상치를 말하는데요, 다른 데이터 값들과 달리 극대 혹은 극소로 퍼져나가있는 데이터입니다. 우리는 box plot을 이용해서 이상치를 탐지하고, 제거하는데 도움을 받을 수 있어요 :) 


suspected outliers는 약한 이상치, outliers는 조금 극단적인 이상치라고 보면 되겠습니다.


위 그래프에서 작은 쪽의 outlier는 없는데요, 그 이유는 \(1.5 * IQR\)을 잡고 아래로 내렸을 때, 더이상 적어질 구간이 없기 때문입니다. 


이상, 사분위수와 box plot에 대한 간단한 포스팅이었습니다!


그림 출처: http://www.physics.csbsju.edu/stats/box2.html