분류 전체보기(31)
-
Codililty: CyclicRotation
문제 An array A consisting of N integers is given. Rotation of the array means that each element is shifted right by one index, and the last element of the array is moved to the first place. For example, the rotation of array A = [3, 8, 9, 7, 6] is [6, 3, 8, 9, 7] (elements are shifted right by one index and 6 is moved to the first place).The goal is to rotate array A K times; that is, each elemen..
2018.11.10 -
ADsP 합격
여러분 제가 국가 공인 데이터 분석 준전문가 자격시험에 합격했습니다~!~!~!~~!!! 설마 했는데 '합격'이란 두 글자를 직접 보니 너무 기쁘네요. 흑흑. 목표를 향해 오늘도 한 발짝 더 성장한 것 같습니다. 저는 출퇴근 시간에 요약집을 보면서 암기할 거리들을 눈에 익혔던게 도움이 많이 됐던 것 같아요. 공부 기간은 일주일이지만, 사실 그 전부터 데이터 마이닝, 통계분석을 실제로 사용하고 있었기에 좀 더 수월했지 않나 생각이 듭니다. 책은 작년에 가볍게 사 두었던 데이터에듀라는 출판사의 교재와 올해 새로 구입한 데이터분석 준전문가 한권으로 끝내기! 이 두권을 번갈아 보며 책마다 부족한 부분을 채워넣듯이 필기하면서 공부했어요. 시험 이틀전부터는 문제를 들입다 풀고 오답하고 풀고 오답하면서 하루종일 보냈던..
2018.09.21 -
정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured) 데이터
정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured) DATA 안녕하세요. 공부하다가 정형, 반정형, 비정형 데이터에 대해서 잘 정리 된 글을 보고 포스팅하러 왔어요. 사실 전 정형, 비정형 데이터만 있다고 알고 있었는데 반정형 데이터 라는 것도 존재하더군요! 포스팅을 위해 공부 하다보니 엄격하게 나누자면 Quasi-Structured Data 형태도 있다고 해요. 그러나 3개로 분류하는 게 일반적이라고 하니, 이 세가지에 대해서만 포스팅을 하겠습니다. 저는 언제나 기초가 중요하다고 생각해요. 초석이 단단해야 좋은 데이터맨이 될 수 있다고 생각합니다. 따라서, 이런 꿀팁들은 까먹기전에 정리합시다~:) 정형 데이터 (Structured Data)데이터를 다루는..
2018.08.14 -
사분위수(Quartiles)와 Box plot
사분위수(Quartiles)와 Box plot 안녕하세요! 오늘은 사분위수와 box plot에 대해 정리해보려고 합니다. 사분위수를 이해해야 box plot을 이해할 수 있어요. 우선 사분위수에 대해서 알려드릴게요! 사분위수 (Quatiles)데이터가 주어졌을 때, 위치의 기준을 정해서 Q1부터 Q3을 부여해줍니다. 그 기준은 다음과 같아요. p = 0.25 / 제 1분위수 / 1st quartile / \(Q_1\)p = 0.5 / 제 2분위수 / 2nd quartile / \(Q_2\)p = 0.75 / 제 3분위수 / 3rd quartile / \(Q_3\) Box plot (box whisker plot)박스플롯은 통계학에서 수치적 자료를 표현하는 그래프입니다. 우선 상자부터 보겠습니다. 상자의 ..
2018.08.12 -
SVM (Support Vector Machine)_개념편
SVM (Support Vector Machine) 안녕하세요. 오늘은 Data Classification에서 우수한 성능을 자랑하는 Support Vector Machine에 대해서 포스팅 해보려고 합니다. 실습은 나중에 따로 포스팅 할 예정이라, 간단한 개념만 몇 개 짚고 넘어갈게요 :) SVM은 Supervised Learning중에서도 Classification을 할 때 유용하게 쓰여요. SVM을 쉽게 표현하자면 어떤 DATA SET이 있을 때, 데이터 사이에 선을 그어서 잘 구분해주는, 그 선을 찾는것이 목적입니다. 그 선을 우리는 hyperplane 이라고 불러요. 자, 위와 같은 분포를 가진 데이터가 있다고 가정합시다. 우리는 어디서 어떻게 선을 그어야 데이터를 가장 잘 나눴다고 할 수 있을..
2018.07.20 -
PCA (Principal Component Analysis)
PCA (Principal Component Analysis) PCA는 데이터 분석을 위한 전처리 과정에서 차원을 축소(dimension reduction)하기 위해 사용되는 기법입니다. 상관관계가 있는 변수끼리 가중선형결합(weighted linear combination)해서 변수를 축소시킵니다. 데이터를 시각화 할 때 3차원까지는 그렇다 쳐도 4차원을 넘어가는 순간 곤란해지곤 하는데, PCA를 통해 2차원으로 축소시키면 평면상에 나이스하게 그래프를 그려낼 수 있죠. PCA를 적용하면 noisy한 차원을 제거해주고, 밀접하게 연관된 차원끼리 합쳐주기 때문에 noise를 감소시켜 줍니다. 또한 데이터를 적은 공간에 저장함으로써 메모리 사용량을 줄여주고, 용량이 적어지면 퍼포먼스가 좋아지는 것은 당연하겠..
2018.07.18