상세 컨텐츠

본문 제목

알면 신나는 AI용어: 아파치 아이스버그

금융 머신러닝 개요

by 주빌리20 2025. 11. 26. 16:16

본문

반응형

데이터 엔지니어링 분야에서 아이스버그는 최근 가장 핫한 기술 중 하나입니다. 한마디로 정의하자면, "데이터 레이크(Data Lake) 위에 데이터 웨어하우스(Data Warehouse) 수준의 신뢰성과 기능을 제공하는 고성능 오픈 테이블 포맷"입니다.

이해하기 쉽게 핵심 내용을 정리해 드릴게요.


1. 아이스버그(Iceberg)란 무엇인가요?

넷플릭스(Netflix)에서 처음 개발하여 오픈소스로 공개한 기술입니다.
기존의 데이터 레이크(예: Amazon S3에 파일들을 잔뜩 쌓아두는 방식)는 저렴하고 확장이 쉽지만, 데이터 수정이나 삭제가 어렵고 오류가 발생하기 쉬웠습니다. 아이스버그는 이 파일들 위에 '똑똑한 목차(Metadata)'를 얹어서, 마치 데이터베이스(DB)처럼 쉽고 안전하게 다룰 수 있게 해주는 중간 계층(Table Format)입니다.


2. 왜 필요한가요? (등장 배경)


과거 하둡(Hadoop) 기반의 하이브(Hive) 테이블 방식은 다음과 같은 문제가 있었습니다:

  • 데이터 수정 불가: 데이터를 수정하려면 전체를 다시 써야 했습니다.
  • 느린 속도: 파일이 많아지면 어떤 파일이 어디에 있는지 찾는 데만 한세월이 걸렸습니다.
  • 신뢰성 부족: 데이터를 쓰는 도중에 오류가 나면, 읽는 사람은 깨진 데이터를 볼 수도 있었습니다.


아이스버그는 이러한 한계를 극복하고 데이터 레이크하우스(Data Lakehouse) 아키텍처를 구현하기 위해 만들어졌습니다.


3. 주요 핵심 기능


아이스버그가 강력한 이유는 다음과 같은 기능들 때문입니다:

* ACID 트랜잭션 지원:

   * 데이터베이스처럼 데이터 입력/수정/삭제가 완벽하게 보장됩니다. 여러 사람이 동시에 데이터를 써도 꼬이지 않으며, 작업이 실패하면 아예 없던 일로 처리되어 데이터 오염을 막습니다.

* 타임 트래블 (Time Travel):

   * 과거의 특정 시점(스냅샷)으로 돌아가서 데이터를 조회할 수 있습니다. 예를 들어, "어제 오후 2시 기준으로 데이터 보여줘"라는 쿼리가 가능합니다. 실수로 데이터를 지웠을 때 복구하기도 쉽습니다.

* 스키마 진화 (Schema Evolution):

   * 테이블의 컬럼 명을 바꾸거나, 타입을 변경하거나, 순서를 바꿔도 데이터를 다시 쓸 필요(Migration)가 없습니다. 메타데이터만 수정하면 되므로 매우 빠르고 간편합니다.

* 파티션 진화 (Partition Evolution):

   * 데이터를 저장하는 폴더 구조(파티션)를 변경하고 싶을 때, 기존 데이터를 건드리지 않고도 새로운 파티션 규칙을 적용할 수 있습니다. (예: '월별' 저장 -> '일별' 저장으로 변경)

* 숨겨진 파티셔닝 (Hidden Partitioning):

   * 사용자가 쿼리를 짤 때 물리적인 파일 저장 구조를 몰라도 됩니다. 아이스버그가 알아서 필요한 파일만 쏙쏙 골라내어(Pruning) 조회 속도를 높여줍니다.


4. 어떻게 작동하나요?


아이스버그는 실제 데이터 파일(Parquet, ORC, Avro 등)과 그 파일들에 대한 정보를 담은 메타데이터 파일로 구성됩니다.

* 스냅샷 (Snapshot): 테이블의 특정 시점 상태를 나타냅니다.
* 매니페스트 (Manifest): 어떤 데이터 파일들이 이 스냅샷에 포함되는지 목록을 관리합니다.
쿼리 엔진(Spark, Trino, Flink 등)이 아이스버그 테이블을 읽을 때, 모든 파일을 뒤지는 게 아니라 이 메타데이터 트리를 먼저 보고 필요한 파일만 정확히 찾아내어 읽습니다.


5. 경쟁 기술 (Delta Lake vs Hudi vs Iceberg)


현재 오픈 테이블 포맷 시장은 3파전입니다.
최근에는 아이스버그가 벤더 중립적이라는 강점 덕분에 AWS, Snowflake, Cloudera 등 많은 기업의 표준으로 채택되며 빠르게 성장하고 있습니다.

아이스버그는 "데이터 레이크(S3 등)를 진짜 데이터베이스처럼 믿고 쓸 수 있게 만들어주는 기술"입니다.

반응형

관련글 더보기