Computer Science(18)
-
Flume OG, NG, Property
Apache Flume 심화 지난 글에서 Apache Flume(이하 플룸)에 대한 기본 개념을 살펴봤다. 업무에서 쓰다보니 깊어지는 내용들이 있어서 좀 더 정리해보려고 한다. Flume OG / Flume NG OG = Old Generation / NG = Next Generation의 약자다. Flume OG의 몇 가지 이슈와 한계를 해결하기 위해 몇 가지 코어 클래스와 시스템이 리팩토링 되었다. Flume OG Flume OG는 Agent Node, Collector Node, Master Node로 나뉘어 있다. Agent가 모은 로그 데이터를 Collector로 보내고, Collector가 어떤 저장소로 데이터를 전송할지 정해준다. 그리고 이런 데이터 플로우를 컨트롤 해주는 게 Master의 ..
2020.04.14 -
Elastic Search, Log Stash, Kibana (ELK Stack) 기초
Elastic Search, Log Stash, Kibana 기초 드디어 ELK 형제를 우리 집에 데리고 왔다. 이 삼형제는 (순서대로)데이터를 저장하고, 데이터를 필터링 및 변환 해주고, 다양하게 시각화 해 주는 녀석들이다. 모두 오픈소스다. 요즘 개발자들은 오픈소스를 적재적소에 활용할 줄 아는 능력이 정말 중요해졌다. 보통 ELK라고 해서 Elastic Search -> Log Stash -> Kibana 순서대로 설명하지만, 나는 L -> E -> K 순서로 설명해보겠다. 데이터 흐름 순서가 그렇기 때문이다. 수집 로그들이 log stash를 거쳐 ES에 저장 되고, 그것을 기반으로 Kibana에서 보여주는 방식이다. Log Stash 다양한 소스에서 데이터를 동시에 수집해 변환하고, 저장소로 전달..
2020.04.05 -
Apache Flume 기본 개념 정리
Apache Flume (아파치 플룸) 기본 개념 정리 오늘 소개 할 Apache Flume(이하 플룸)은 클라우데라에서 처음 개발 돼, 아파치 소프트웨어 재단으로 이관 됐다. 로그데이터를 깔끔하게 수집하는 데 이만한 게 없으며, 많은 기업들에서 실제 서비스 로그데이터 관리를 위해 사용하고 있다. 전체적인 구조를 간단하게 보자면 다음과 같다. 내가 이해한 구조는 위 그림과 같은데 (직접 그림), 서비스 서버에서 수집되는 로그를 Flume Agent가 Flume Collector가 있는 host로 보내는 것이다. Collector에 설정값을 통해 Sink를 정해주는데, sink란 수집 된 로그데이터를 저장해놓을 데이터베이스를 값으로 갖는다. sink는 위에 그려놓은 HDFS, Kafka 이외에도 열 가지가..
2020.04.04 -
정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured) 데이터
정형(Structured), 반정형(Semi-Structured), 비정형(Unstructured) DATA 안녕하세요. 공부하다가 정형, 반정형, 비정형 데이터에 대해서 잘 정리 된 글을 보고 포스팅하러 왔어요. 사실 전 정형, 비정형 데이터만 있다고 알고 있었는데 반정형 데이터 라는 것도 존재하더군요! 포스팅을 위해 공부 하다보니 엄격하게 나누자면 Quasi-Structured Data 형태도 있다고 해요. 그러나 3개로 분류하는 게 일반적이라고 하니, 이 세가지에 대해서만 포스팅을 하겠습니다. 저는 언제나 기초가 중요하다고 생각해요. 초석이 단단해야 좋은 데이터맨이 될 수 있다고 생각합니다. 따라서, 이런 꿀팁들은 까먹기전에 정리합시다~:) 정형 데이터 (Structured Data)데이터를 다루는..
2018.08.14 -
사분위수(Quartiles)와 Box plot
사분위수(Quartiles)와 Box plot 안녕하세요! 오늘은 사분위수와 box plot에 대해 정리해보려고 합니다. 사분위수를 이해해야 box plot을 이해할 수 있어요. 우선 사분위수에 대해서 알려드릴게요! 사분위수 (Quatiles)데이터가 주어졌을 때, 위치의 기준을 정해서 Q1부터 Q3을 부여해줍니다. 그 기준은 다음과 같아요. p = 0.25 / 제 1분위수 / 1st quartile / \(Q_1\)p = 0.5 / 제 2분위수 / 2nd quartile / \(Q_2\)p = 0.75 / 제 3분위수 / 3rd quartile / \(Q_3\) Box plot (box whisker plot)박스플롯은 통계학에서 수치적 자료를 표현하는 그래프입니다. 우선 상자부터 보겠습니다. 상자의 ..
2018.08.12 -
모집단(Population), 표본추출(Sampling), 표본(Sample)
안녕하세요! 좋은 월요일 점심입니다. 저는 컴퓨터공학도라서 통계를 잘 몰라요. 고등학교 3학년을 마지막으로 통계에 손을 대 본 일이 거의 없다고 볼 수 있죠. 고등학교 때 통계기본이 아주 막바지 단원에 있었는데, 다른 수학 단원보다 조금 재미있게 공부했던 기억은 납니다ㅎㅎ 자, 데이터 분석에서 뗄래야 뗄 수 없는 통계! 모른다고 마냥 손 놓고 있을 수는 없겠죠? 일을 하다보니 점점 더 그 필요성이 절박해지더라구요. 그래서 제가 공부를 시작했습니다. 오늘은 통계의 첫 걸음. 마치 컴공에서 print('Hello World!')와 같 다고 볼 수 있는 모집단, 표본추출, 표본의 관계에 대해 간단히 정리하며 본 카테고리를 시작해보려고 합니다. 짧지만, 시작이 반이니까요! 모집단(母集團, Population)자..
2018.07.16