Big Data/빅데이터를 지탱하는 기술

데이터 웨어하우스, 데이터 마트 그리고 데이터 레이크

sincerely10 2021. 4. 25. 11:32
반응형

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책에 대해서 이어서 정리해보겠습니다.

chapter 1 빅데이터의 기초 지식

1-2 빅데이터 시대의 데이터 분석 기반

데이터 웨어하우스와 데이터 마트

기존의 데이터 웨어하우스와 데이터 마트에 대한 관찰

데이터 웨어하우스의 구축 사례

위 데이터 프로세스는 간단하게 표현한 기존의 데이터 웨어하우스(Data Warehouse)의 구축 사례입니다.
그림과 같이 각각의 역할은 명확하게 구별되어 있습니다.

먼저 데이터 웨어하우스는 업무상에서 활용되는 RDB와 달리 대량의 데이터를 장기보존 하는 것에 최적화 되어 있습니다. 따라서 이와 연관된 특징으로 대량의 데이터 전송하는 등에 처리에는 효과적이지만, 소량의 데이터를 자주 읽고 쓰는 것에는 적합하지 않습니다.

대부분의 경우 하루 동안 업무를 위한 RDB에 정리한 데이터를 야간에 배치작업을 통해 적재(Load)하는 특징이 있습니다.

그리고 데이터 웨어하우스의 대용량 데이터에 특화된 특징이 있기 때문에 집계성 또는 시각화를 위한 작은 데이터를 만들어주는 과정이 있습니다. 이러한 형태의 데이터를 데이터 마트(Data Mart)라고 합니다. 이러한 데이터는 언급한 것 처럼 시각화 툴 BI(Business Intelligence) 툴과 연동되어 사용됩니다. 

데이터 웨어하우스와 데이터 마트 모두 SQL을 통해 활용하는 것이 일반적입니다. 즉, 정확한 테이블 설계가 중요하다고 말씀드릴 수 있을 것 같습니다. 또한 중복적재와 효과적 데이터 처리를 위해서 앞서 언급한 포스트의 데이터 파이프라인의 설계도 역시 중요합니다.

데이터 레이크

데이터 레이크의 개념

앞서 언급한 DW(데이터 웨어하우스) DM(데이터 마트)가 주로 활용되는 시점에서는 예상한 데이터를 수집하고 데이터의 큰 변화가 잦지 않았습니다. 즉, 충분한 테이블 설계와 데이터 파이프라인이 가능하다는 이야기 입니다.

그러나, 빅데이터 시대에서는 예상하지 못한 데이터가 기하적으로 증가하고 있다는 것이 특징입니다. 또한 모든 데이터가 테이블의 설계를 기반으로 만들어진 것이 아닙니다. Binary Data, 정형화 되지 못한 텍스트 데이터 등이 유입될 수 있습니다.

따라서 이러한 흐름에 기반하여 만들어진 형태가 데이터 레이크(Data Lake) 입니다. 데이터 레이크는 하나의 호수와 같이 여러 유입경로의 흘러 들어오는 데이터를 담을 수 있습니다.(실제로 이러한 비유에서 탄생한 용어 입니다.) 결국, 데이터를 먼저 적재하고 나서 데이터 마트 등으로 변화하는 과정을 거칩니다. (이전 포스트에서 언급한 ETL의 과정 입니다.)

데이터 레이크의 프로세스 예시

이렇듯 데이터 레이크는 DB의 형태보다는 하나의 스토리지(Storage)에 가깝다고 보실 수 있습니다. 이런 이유에서 최근에 S3와 같은 오브젝트 스토리지(Object Storage)가 더욱 더 많이 활용되는 것이죠.

즉, 기존의 SQL을 활용하기 보다는 분산 스토리지의 처리 기법인 MapReduce와 같은 프레임워크가 활용되고 있습니다.

이번 포스트에서는 기존의 처리기법에서 활용되는 데이터 웨어하우스 및 데이터 마트를 학습하였고, 데이터 레이크의 기원과 개괄적인 특징에 대해서 알아보았습니다. 이어지는 포스트 역시 비슷한 흐름에서 빅데이터 자체에 대해서 조금 더 파악해보겠습니다.

 

반응형