반응형

Big Data/빅데이터를 지탱하는 기술 4

데이터 엔지니어와 데이터 분석가 그리고 데이터 사이언티스트

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책을 읽으며 정리해보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 데이터 분석 기반을 단계적으로 발전시키기 데이터 분석에 있어 필요한 기술은 다방면에 걸쳐 있기 때문에 팀을 이루어 작업을 해야 합니다. 시스템 구축 및 운용과 자동화등을 담당하는 데이터 엔지니어(Data Engineer)와 데이터에서 가치있는 정보를 추출하는 데이터 분석가(Data Analyst)는 요구되는 지식과 사용하는 도구(Tool)도 다릅니다. 이러한 역할의 구분은 그림에서 보시는 것과 같이 완벽하게 구분되기 어렵습니다. 데이터 분석 조직이 크기를 떠나서도 각자 할 수 있는 영역이 다르기 때문이죠. 저도 전에 Data Engineer이지만 어..

데이터 웨어하우스, 데이터 마트 그리고 데이터 레이크

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책에 대해서 이어서 정리해보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 데이터 웨어하우스와 데이터 마트 기존의 데이터 웨어하우스와 데이터 마트에 대한 관찰 위 데이터 프로세스는 간단하게 표현한 기존의 데이터 웨어하우스(Data Warehouse)의 구축 사례입니다. 그림과 같이 각각의 역할은 명확하게 구별되어 있습니다. 먼저 데이터 웨어하우스는 업무상에서 활용되는 RDB와 달리 대량의 데이터를 장기보존 하는 것에 최적화 되어 있습니다. 따라서 이와 연관된 특징으로 대량의 데이터 전송하는 등에 처리에는 효과적이지만, 소량의 데이터를 자주 읽고 쓰는 것에는 적합하지 않습니다. 대부분의 경우 하루 동안 업무를 위한 R..

Data Pipeline(데이터 파이프라인)

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책에 대해서 이어서 정리해보겠습니다. 오늘은 데이터 엔지니어로서 정말 중요한 역할인 데이터 파이프라인에 대해서 다뤄보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 빅데이터 기술 여기서 '빅데이터 기술' = '데이터를 순차적으로 가공해 나가는 일련의 구조'를 의미합니다. 데이터를 차례대로 차례대로 전달해 나가는 구성된 시스템을 흔히 'Data Pipeline(데이터 파이프라인)'이라고 합니다. 데이터를 모으는 데이터 수집부터 최종 목적지(시각화를 위한 마트 등)로의 과정을 일컫습니다. 지금부터 대표적인 단계를 나열하여 설명하도록 하겠습니다. 1) 데이터 수집 데이터 파이프라인이라 함은 데이터를 모으는 것에서부터 시작..

Hadoop & NoSQL

prologue 2월 1일부터 새로운 회사를 다니면서, 적응하기에 정신없었네요. 한 달간 회사를 다니면서 블로그 운영이 쉽지 않았는데요. 특히 앞으로 어떤 내용의 지속 가능한 컨텐츠를 올려야 할까 고민이 많았습니다. 생각하다 지금까지의 경험을 정리 함과 동시에 앞으로의 방향까지 고려해볼 수 있는 컨텐츠를 작성해보는게 좋다는 결론을 내렸습니다. 그 과정에서 좋은 책이라고 추천받았던 '빅데이터를 지탱하는 기술'이라는 책에 대해 정리와 동시에 나름의 정리를 하며 올려보는게 좋을 것 같다 생각했습니다. 가장 큰 목표는 내용이 조금 부실해도 꾸준하게 올리는 것입니다. chapter 1 빅데이터의 기초 지식 chapter1에서는 빅데이터와 연관된 기술이 생겨난 히스토리를 돌아보고 그 기본에 대한 사고와 용어를 정리..

반응형