반응형

Big Data 6

Spark Scala로 Build 해보기

안녕하세요. 오늘 포스트는 정말 오랜만에 기술 관련 내용으로 적어보겠습니다. Spark 카테고리로는 처음 쓰는 글이네요. Spark에 대한 상세한 내용보다는 Build를 직접 해보는 과정을 안내 드리도록 하겠습니다. 회사에서 업무 정리 차 위키로 적었는데 상세 과정을 풀어서 작성 해보겠습니다. 1. Spark Job의 세 가지 유형 Spark Job은 다음과 같이 세 가지 언어로 수행할 수 있습니다. Python: 스크립트 언어로 별도 build가 필요 없음 Java: 컴파일 언어로 maven이라는 Build Manager를 통해 build 필요/가능 Sacla: 컴파일 언어로 Java와 유사 sbt라는 Build Manager를 통해 build 필요/가능 2. Spark Job의 Scala Build ..

Big Data/Spark 2021.11.14

데이터 엔지니어와 데이터 분석가 그리고 데이터 사이언티스트

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책을 읽으며 정리해보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 데이터 분석 기반을 단계적으로 발전시키기 데이터 분석에 있어 필요한 기술은 다방면에 걸쳐 있기 때문에 팀을 이루어 작업을 해야 합니다. 시스템 구축 및 운용과 자동화등을 담당하는 데이터 엔지니어(Data Engineer)와 데이터에서 가치있는 정보를 추출하는 데이터 분석가(Data Analyst)는 요구되는 지식과 사용하는 도구(Tool)도 다릅니다. 이러한 역할의 구분은 그림에서 보시는 것과 같이 완벽하게 구분되기 어렵습니다. 데이터 분석 조직이 크기를 떠나서도 각자 할 수 있는 영역이 다르기 때문이죠. 저도 전에 Data Engineer이지만 어..

데이터 웨어하우스, 데이터 마트 그리고 데이터 레이크

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책에 대해서 이어서 정리해보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 데이터 웨어하우스와 데이터 마트 기존의 데이터 웨어하우스와 데이터 마트에 대한 관찰 위 데이터 프로세스는 간단하게 표현한 기존의 데이터 웨어하우스(Data Warehouse)의 구축 사례입니다. 그림과 같이 각각의 역할은 명확하게 구별되어 있습니다. 먼저 데이터 웨어하우스는 업무상에서 활용되는 RDB와 달리 대량의 데이터를 장기보존 하는 것에 최적화 되어 있습니다. 따라서 이와 연관된 특징으로 대량의 데이터 전송하는 등에 처리에는 효과적이지만, 소량의 데이터를 자주 읽고 쓰는 것에는 적합하지 않습니다. 대부분의 경우 하루 동안 업무를 위한 R..

Data Pipeline(데이터 파이프라인)

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책에 대해서 이어서 정리해보겠습니다. 오늘은 데이터 엔지니어로서 정말 중요한 역할인 데이터 파이프라인에 대해서 다뤄보겠습니다. chapter 1 빅데이터의 기초 지식 1-2 빅데이터 시대의 데이터 분석 기반 빅데이터 기술 여기서 '빅데이터 기술' = '데이터를 순차적으로 가공해 나가는 일련의 구조'를 의미합니다. 데이터를 차례대로 차례대로 전달해 나가는 구성된 시스템을 흔히 'Data Pipeline(데이터 파이프라인)'이라고 합니다. 데이터를 모으는 데이터 수집부터 최종 목적지(시각화를 위한 마트 등)로의 과정을 일컫습니다. 지금부터 대표적인 단계를 나열하여 설명하도록 하겠습니다. 1) 데이터 수집 데이터 파이프라인이라 함은 데이터를 모으는 것에서부터 시작..

Hadoop & NoSQL

prologue 2월 1일부터 새로운 회사를 다니면서, 적응하기에 정신없었네요. 한 달간 회사를 다니면서 블로그 운영이 쉽지 않았는데요. 특히 앞으로 어떤 내용의 지속 가능한 컨텐츠를 올려야 할까 고민이 많았습니다. 생각하다 지금까지의 경험을 정리 함과 동시에 앞으로의 방향까지 고려해볼 수 있는 컨텐츠를 작성해보는게 좋다는 결론을 내렸습니다. 그 과정에서 좋은 책이라고 추천받았던 '빅데이터를 지탱하는 기술'이라는 책에 대해 정리와 동시에 나름의 정리를 하며 올려보는게 좋을 것 같다 생각했습니다. 가장 큰 목표는 내용이 조금 부실해도 꾸준하게 올리는 것입니다. chapter 1 빅데이터의 기초 지식 chapter1에서는 빅데이터와 연관된 기술이 생겨난 히스토리를 돌아보고 그 기본에 대한 사고와 용어를 정리..

hive partition에 대한 고찰

hive partition이란? 일자별로 데이터를 만드는 테이블이 있다고 가정해보자. 이 테이블에서 특정날짜의 데이터를 찾는다면, 전체 테이블을 다 탐색해야만 원하는 결과를 얻을 수 있을 것이다. 여기서 전체를 찾지 않고 날짜별로 Directory를 만든다고 생각해보자, 원하는 날짜가 아니면 파일이 아닌 Directory 단위로 지나칠 수 있다. 즉 위와 같은 파티셔닝의 개념을 적용하면, 같은 쿼리를 수행해도 훨씬 빠른 결과를 얻을 수 있다. 파티셔닝은 물리적 구조를 바꾸는 개념으로 전체 탐색이 아닌 hierarchical 구조로 탐색이 가능하다. CREATE Partitioning Table (파티션 테이블 만들기) Partitioning Table을 간단하게 만들자면 아래와 같이 'CREATE TAB..

Big Data/Hive 2019.06.22
반응형