Big Data/빅데이터를 지탱하는 기술

데이터 엔지니어와 데이터 분석가 그리고 데이터 사이언티스트

sincerely10 2021. 7. 3. 17:56
반응형

안녕하세요. '빅데이터를 지탱하는 기술'이라는 책을 읽으며 정리해보겠습니다.

chapter 1 빅데이터의 기초 지식

1-2 빅데이터 시대의 데이터 분석 기반

데이터 분석 기반을 단계적으로 발전시키기

데이터 분석에 있어 필요한 기술은 다방면에 걸쳐 있기 때문에 팀을 이루어 작업을 해야 합니다.
시스템 구축 및 운용과 자동화등을 담당하는 데이터 엔지니어(Data Engineer)와 데이터에서 가치있는 정보를 추출하는 데이터 분석가(Data Analyst)는 요구되는 지식과 사용하는 도구(Tool)도 다릅니다.

데이터 엔지니어와 데이터 분석가의 역할 구분

이러한 역할의 구분은 그림에서 보시는 것과 같이 완벽하게 구분되기 어렵습니다. 데이터 분석 조직이 크기를 떠나서도 각자 할 수 있는 영역이 다르기 때문이죠.
저도 전에 Data Engineer이지만 어떻게 보면 서버 관리자와 같은 Technical Architect(TA)의 영역도 커버 하기도 했습니다. 조직에서 R&R을 잘 나누고 명확한 업무목표를 주는 것이 중요하다고 생각 합니다.

책에는 없었지만, 데이터 사이언티스트(Data Scientist)라는 직업 또한, 정말 몇 년 전 부터 계속 핫하다라는 표현이 적절 합니다.
그리고 얼핏 보면 데이터 분석가랑 비슷하거나 똑같은 역할이라고 생각하시는 분들도 계실 수 있을겁니다. 저도 어렴풋이 분간은 하긴 했지만 명확히 구분은 되지 않았는데요.
아래 그림을 보면서 구분해보겠습니다.

데이터 관련 직군(데이터 사이언티스트, 데이터 엔지니어, 데이터 분석가)

우선, 데이터 사이언티스트를 요약하면 많은 양의 데이터를 저장할 수 있게 돕고 비즈니스 예측모델을 만드는 역할이라고 할 수 있습니다.
더 짧게 요약하면 비즈니스 모델을 함수화시켜 예측할 수 있게 하는 역할 입니다. 얼핏보면 데이터 분석과와 비슷해보일 수도 있지만 데이터 분석가는 조금 더 사후분석의 개념이라면 데이터 사이언티스트는 예측에 가깝다라고 볼 수 있을 것 같습니다.

세 직군 모두 비즈니스의 도메인 지식이 중요하겠지만, 특히 영향을 예측해야 하는 데이터 사이언티스트가 더욱 더 많은 지식을 필요로 한다고 생각합니다.

데이터 수집의 세 가지 목적

데이터 이용 목적

데이터를 모으고 나서 다음과 같은 활용방안에 따라 세 가지로 분류 할 수 있습니다.

1) 데이터 검색

위 그림에서 1과 같이 특정 조건등에 해당하는 데이터를 찾는 과정입니다. 고객에 의해 요청 되거나 서비스등을 제공할 때에 검색을 통해 활용할 수 있습니다.

2) 데이터 가공

상황에 맞는 상품을 추천하거나 업무 시스템상 특정 목적으로 가공될 수 있습니다. 이 과정은 정해진 목적이 명확하기 때문에 데이터 파이프라인을 통해 처리 됩니다.

3) 데이터 시각화

이 전의 포스트인 데이터 마트에 대해 언급한 것과 같이 데이터 마트에 BI 툴 등으로 시각화 할 수 있습니다. 데이터의 시각화는 인사이트 의사결정에 도움을 줄 수 있습니다. 

이번 포스트에서는 데이터 분석에 있어서 각 역할(데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트)과 데이터 수집의 목적 세 가지(검색, 가공, 시각화)에 대해 알아보았습니다.

다음에도 더 좋은 내용과 함께 포스팅 하도록 하겠습니다.

반응형