데이터 엔지니어링 분야에서 아이스버그는 최근 가장 핫한 기술 중 하나입니다. 한마디로 정의하자면, "데이터 레이크(Data Lake) 위에 데이터 웨어하우스(Data Warehouse) 수준의 신뢰성과 기능을 제공하는 고성능 오픈 테이블 포맷"입니다.
이해하기 쉽게 핵심 내용을 정리해 드릴게요.
넷플릭스(Netflix)에서 처음 개발하여 오픈소스로 공개한 기술입니다.
기존의 데이터 레이크(예: Amazon S3에 파일들을 잔뜩 쌓아두는 방식)는 저렴하고 확장이 쉽지만, 데이터 수정이나 삭제가 어렵고 오류가 발생하기 쉬웠습니다. 아이스버그는 이 파일들 위에 '똑똑한 목차(Metadata)'를 얹어서, 마치 데이터베이스(DB)처럼 쉽고 안전하게 다룰 수 있게 해주는 중간 계층(Table Format)입니다.
과거 하둡(Hadoop) 기반의 하이브(Hive) 테이블 방식은 다음과 같은 문제가 있었습니다:
아이스버그는 이러한 한계를 극복하고 데이터 레이크하우스(Data Lakehouse) 아키텍처를 구현하기 위해 만들어졌습니다.
아이스버그가 강력한 이유는 다음과 같은 기능들 때문입니다:
* 데이터베이스처럼 데이터 입력/수정/삭제가 완벽하게 보장됩니다. 여러 사람이 동시에 데이터를 써도 꼬이지 않으며, 작업이 실패하면 아예 없던 일로 처리되어 데이터 오염을 막습니다.
* 과거의 특정 시점(스냅샷)으로 돌아가서 데이터를 조회할 수 있습니다. 예를 들어, "어제 오후 2시 기준으로 데이터 보여줘"라는 쿼리가 가능합니다. 실수로 데이터를 지웠을 때 복구하기도 쉽습니다.
* 테이블의 컬럼 명을 바꾸거나, 타입을 변경하거나, 순서를 바꿔도 데이터를 다시 쓸 필요(Migration)가 없습니다. 메타데이터만 수정하면 되므로 매우 빠르고 간편합니다.
* 데이터를 저장하는 폴더 구조(파티션)를 변경하고 싶을 때, 기존 데이터를 건드리지 않고도 새로운 파티션 규칙을 적용할 수 있습니다. (예: '월별' 저장 -> '일별' 저장으로 변경)
* 사용자가 쿼리를 짤 때 물리적인 파일 저장 구조를 몰라도 됩니다. 아이스버그가 알아서 필요한 파일만 쏙쏙 골라내어(Pruning) 조회 속도를 높여줍니다.
아이스버그는 실제 데이터 파일(Parquet, ORC, Avro 등)과 그 파일들에 대한 정보를 담은 메타데이터 파일로 구성됩니다.
* 스냅샷 (Snapshot): 테이블의 특정 시점 상태를 나타냅니다.
* 매니페스트 (Manifest): 어떤 데이터 파일들이 이 스냅샷에 포함되는지 목록을 관리합니다.
쿼리 엔진(Spark, Trino, Flink 등)이 아이스버그 테이블을 읽을 때, 모든 파일을 뒤지는 게 아니라 이 메타데이터 트리를 먼저 보고 필요한 파일만 정확히 찾아내어 읽습니다.
현재 오픈 테이블 포맷 시장은 3파전입니다.
최근에는 아이스버그가 벤더 중립적이라는 강점 덕분에 AWS, Snowflake, Cloudera 등 많은 기업의 표준으로 채택되며 빠르게 성장하고 있습니다.
아이스버그는 "데이터 레이크(S3 등)를 진짜 데이터베이스처럼 믿고 쓸 수 있게 만들어주는 기술"입니다.
| 알면 신나는 AI금융 용어: AI 에어포켓 (1) | 2025.12.15 |
|---|---|
| GPT-5.2 vs. Gemini 3.0 비교 평가 (0) | 2025.12.12 |
| 알면 신나는 AI용어: 프롬 스크래치 (1) | 2025.11.25 |
| 🇨🇳 중국이 바라보는 AI 미래: '피지컬 AI(구신지능) (0) | 2025.11.19 |
| AI가 바꾸는 글로벌 은행권의 고용 지형: 변화와 시사점 (1) | 2025.09.19 |