개요

금융사 클라우드 전환의 시작점으로 자사 데이터센터의 내부 데이터를 클라우드로 올리는 부분의 시스템 설계 및 구축이 필요하여 이를 정리해둔다.

주어진 현황

  • Windows Server 5대를 보유, 인터넷 안되고 업무망으로 접속됨
  • data source는 아래 그림의 4종류
  • 일부 데이터는 비식별화 처리, 칼럼 삭제 등의 ETL 처리가 필요

Airflow 기반 시스템 설계도

아키텍처 세부 고민 사항

  • 내부 인력들이 가장 익숙한 언어가 파이썬
  • NIFI 도입도 고민했지만 NIFI 대비 프로그래밍으로 Flow 관리, 로컬개발 및 디버깅에서의 장점이 클꺼라 생각함
  • 금융권 규제 준수를 위한 ETL은 위 구성도로 처리하고 나머지는 클라우드 쪽에서 최대한 ETL을 처리하고자 함
  • 클라우드 쪽 ETL도 Airflow를 도입할꺼라 ETL 엔진을 일원화 해서 역량을 집중
  • 인터넷망 접근 불가 제약
    • docker swarm으로 최대한 관리 포인트를 줄이고자 함
    • PYPI, GitLab등으로 최소한의 시스템 편의 제공