9월, 2023 | KWANGSIK LEE's log

개요

Athena에 Table Format으로 iceberg를 적용하기 위해 조사한 내용을 정리해둔다.

schema evolution
- 스키마 add, drop, update, rename 가능
hidden partitioning
- hive의 명시적 partitioning대비 데이터 볼륨, 쿼리 패턴에 따라 파티션을 자동으로 지정하고 진화하게 운영됨
- 사견 : 데이터 볼륨에 따라 파티션이 자동 변경되는것은 장점일수도 있는데 검증이 필요할듯
partition layout evolution
- 위와 이어지는 얘기인데 파티션이 데이터 크기, 쿼리 패턴에 의해 계속 바뀜,
- 사용자는 write 쿼리를 재작성 할 필요는 없음, 특정 시점에 write split전략이 바뀌면 바꾸어 저장함
- rewrite partition 기능을 통해 전체 데이터 rewrite없이 re-partitioning도 가능
- sort order 또한 evolution됨
time travle
- 특정 시점의 특정 스키마로 쿼리를 날릴수 있는 기능
- 사견 : 필자는 별 필요성을 못 느낌