2018. 7. 16. 13:05ㆍComputer Science
안녕하세요! 좋은 월요일 점심입니다. 저는 컴퓨터공학도라서 통계를 잘 몰라요. 고등학교 3학년을 마지막으로 통계에 손을 대 본 일이 거의 없다고 볼 수 있죠. 고등학교 때 통계기본이 아주 막바지 단원에 있었는데, 다른 수학 단원보다 조금 재미있게 공부했던 기억은 납니다ㅎㅎ 자, 데이터 분석에서 뗄래야 뗄 수 없는 통계! 모른다고 마냥 손 놓고 있을 수는 없겠죠? 일을 하다보니 점점 더 그 필요성이 절박해지더라구요. 그래서 제가 공부를 시작했습니다. 오늘은 통계의 첫 걸음. 마치 컴공에서 print('Hello World!')와 같 다고 볼 수 있는 모집단, 표본추출, 표본의 관계에 대해 간단히 정리하며 본 카테고리를 시작해보려고 합니다. 짧지만, 시작이 반이니까요!
모집단(母集團, Population)
자, 우선 모집단입니다. 어미 모(母)자를 썼네요. 영어로는 특이하게도 Population이라고 하네요! 우리가 분석을 할 때 처음 접하는 전체 데이터라고 볼 수 있겠습니다.
표본추출(Sampling)
우리가 모집단의 데이터를 가지고 있다고 해서 방대한 양의 데이터를 모두 전처리하고 분석하려면 굉장히 많은 경비와 시간이 필요하게 됩니다. 이런 일을 방지하기 위해 우리는 표본을 추출하죠! 이것이 바로 표본추출입니다.
표본(標本, Sample)
표본은 모집단에서 표본추출과정을 통해 추출된 모집단의 부분집합입니다. 표본을 추출 할 때는 지역, 나이, 성별로 균일하게 추출해야 공정한 표본이라고 할 수 있겠죠? 이 과정이 아주 중요한 이유가 있어요. 우리는 표본 분석을 통해 모집단을 '추정' 해야하기 때문이죠. 편파추출 된 표본으로는 공정한 추정을 할 수 없겠죠?
오늘 드디어 통계 첫 포스팅을 했네요. 앞으로도 통계 고수가 되는 그 날 까지 열심히 공부 할 예정입니다 :) 화이팅!
'Computer Science' 카테고리의 다른 글
정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured) 데이터 (12) | 2018.08.14 |
---|---|
사분위수(Quartiles)와 Box plot (0) | 2018.08.12 |