개요
금융사 클라우드 전환의 시작점으로 자사 데이터센터의 내부 데이터를 클라우드로 올리는 부분의 시스템 설계 및 구축이 필요하여 이를 정리해둔다.
주어진 현황
- Windows Server 5대를 보유, 인터넷 안되고 업무망으로 접속됨
- data source는 아래 그림의 4종류
- 일부 데이터는 비식별화 처리, 칼럼 삭제 등의 ETL 처리가 필요
Airflow 기반 시스템 설계도
아키텍처 세부 고민 사항
- 내부 인력들이 가장 익숙한 언어가 파이썬
- NIFI 도입도 고민했지만 NIFI 대비 프로그래밍으로 Flow 관리, 로컬개발 및 디버깅에서의 장점이 클꺼라 생각함
- 금융권 규제 준수를 위한 ETL은 위 구성도로 처리하고 나머지는 클라우드 쪽에서 최대한 ETL을 처리하고자 함
- 클라우드 쪽 ETL도 Airflow를 도입할꺼라 ETL 엔진을 일원화 해서 역량을 집중
- 인터넷망 접근 불가 제약
- docker swarm으로 최대한 관리 포인트를 줄이고자 함
- PYPI, GitLab등으로 최소한의 시스템 편의 제공