데이터 웨어하우스와 데이터 레이크


01 Jul 2019 » data

기업의 정보시스템 분류

  • 기간계(계정계) : 거래/매출, 비용의 발생 및 처리정보 같은 기간 정보를 관리
  • 정보계(데이터 웹어하우스): 채널계/기간계의 주요정보를 바탕으로 성과측정/결산 등의 업무처리와 데이터분석을 통한 전략수립의 기초정보를 생성

데이터 웨어하우스

프로세스

  1. 정보 분석의 가치가 있는 정보를 데이터 주제별로 분류
  2. 분석 목적별 데이터 마트를 생성
  3. OLAP 툴 및 SQL을 이용하여 최종 정보 이용자들이 활용

장점

  • 시스템의 정보를 통합하여 정보 분석가능
  • 분석 목적별 데이터마트를 생성하여 동일 데이터에 대한 다중 엑세스를 제고
  • 운영 시스템의 부함 경감
  • 시스템을 읽기 최적화 시스템으로 적용
  • 시계열 데이터를 관리하여 추이 분석 가능
  • 기업의 다양한 정보를 통합하여 연계분석 가능
  • 비IT 인력 주체적으로 데이터를 분석

데이터 레이크

필요성

  • 다양한 포털 사이트.. SNS에서 발생하는 실시간 로그 데이터의 분석 필요
  • 원천 시스템에서 데이터 웨어하우스에 이관하는 것이 매우 오랜 시간 필요
  • 다양한 소스 시스템의 정보를 통합하기 위한 운영비용 발생
  • 시계열 데이터의 제약
  • 대용량의 데이터들을 통합해 단일 형식으로 만드는 것과 다른 방법 필요

장점

  • 원래 형식으로 저장했다가 나중에 쉽게 분석할 수 있도록 하는 대규모 저장소
  • SNS, 디바이스 신호 로그와 같은 빅데이터를 처리하는 방식 - 데이터를 작은 형식으로 나누고 취합하는 기법
  • 아파치 하둡과 같은 맵리듀스 방식의 분산 데이터 처리 프레임워크
  • 구조화된 타입의 데이터나 구조화 되지 않은 데이터 상관없이 활용가능
  • 분산저장 구조이며 관계형 데이터베이스와 비교해 매우 저렴한 저장매치 이용.

단점

  • 구축하고 활용하는 기술이 어려워서 습득과 활용이 쉽지 않다.
  • 관련 데이터 전문가가 수요에 비해 부족
  • 실시간 처리 , 데이터 갱신, 데이터 통합의 연계분석이 쉬비 않음.
  • 비IT 담당자가 직접 데이터를 분석할 수 있는 환경이 아님.

선택

  • 선택의 기준은 비용이 아님!
  • 재무보고서, 정부기관에 파일링 하는 경우는 깔끔하고 정확한 데이터 웨어하우스
  • 대략적인 트랜드 분석, 방향성 파악을 위한 경우는 데이터 레이크
  • 더 나아가 하이브리드로 sqoop를 이용하여 데이터레이크와 데이터 웨어하우스간 데이터를 이용하여 분석.

Reference

  • http://blog.b2en.com/253