[데이터 엔지니어링 디자인 패턴] 경량 ETL 실습 후기
·
Insight/서평
한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다.배경데이터 기반의 프로젝트를 수행할 때, 보통은 이미 정제된 데이터를 잘 활용하는 것에 집중하는 경우가 많다. 데이터 수집 및 관리 영역은 마치 도시의 인프라처럼, 초기에 제대로 구축해두면 이후에는 유지/보수만 해주면 되기 때문이다. 그러나 인프라에 대한 신뢰가 깨지는 것만큼 치명적인 사건도 드물다. 이미 모든 작업들이 그 신뢰를 바탕으로 진행되어 왔다면, 최초로 발견한 데이터 품질의 문제가 어디에 또 어디에 도사리고 있을지는 아무도 알 수 없기 때문이다. 이러한 데이터 통합을 경험해보고자 직접 간단한 ETL 프로세스를 구현해봤다. 책에서 제시하는 대표 사례는 꽤 복잡하게 느껴졌기에 다소 단순화하여 접근했다.문제: 증분 적재내 경우 크롤..