제로 ETL
From CS Wiki
제로 ETL은 극단적으로 ETL에 소요되는 시간, 비용을 줄이는 것을 의미한다.
기존 상황[edit | edit source]
기본적으로 서비스에 직접 사용되는 데이터베이스가 데이터 웨어하우스로 통합되기 위해선 데이터를 추출하고 송신하고 적재하는 ETL 과정을 거쳐야 한다. 따라서 데이터베이스에서 데이터 웨어하우스로의 통합은 주로 배치 작업을 통해 이루어지고, 레거시 엔터프라이즈에선 일단위의 배치를 사용하는 경우가 많다. 또한 ETL은 별도의 솔루션으로 구동되어 솔루션 도입 및 운영 비용이 소모된다.
최근 실시간 데이터 변화를 캡쳐하는 CDC 기술의 발전으로 짧은 주기로 데이터 웨어하우스가 업데이트되는 구현법이 많아졌지만 CDC를 사용하더라도 기본적으론 ETL에 대한 부하와 동기화 시간 간격이 어느정도는 있을 수밖에 없다.
제로 ETL의 등장[edit | edit source]
이런 한계를 극복하기 위해 2022년, AWS에서 제로 ETL 서비스를 시작하였다. 우선은 자사의 아마존 오로라 데이터베이스와 아마존 레드시프트 데이터 웨어하우스 간의 제로 ETL 동기화를 구현하였다. 기본적으로 CDC가 사용되는 것은 동일하나 트랜잭션이 완료되기 전이라도 실시간으로 디스크 레이어에서 변경된 데이터를 읽어 병렬 컴퓨팅으로 레드시프트에 기록하는 방식을 사용하였다.
따라서 사용자의 컴퓨팅 리소스의 부하나, 데이터베이스의 지연 없이 거의 실시간에 가깝게(일반적으로 수 초 이내) 데이터 웨어하우스에 변경이 기록되도록 한 것이다.