Notice
Recent Posts
Recent Comments
Link
«   2025/11   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
Archives
Today
Total
관리 메뉴

Dende

데이터 저장 - 데이터 웨어하우스와 데이터 레이크 비교 본문

Data Scientist

데이터 저장 - 데이터 웨어하우스와 데이터 레이크 비교

Dende 2022. 8. 17. 11:37

 

 

전통적으로 데이터는 '데이터 웨어하우스'에 저장되어 왔습니다. 이름에서 알 수 있듯이, 데이터 웨어하우스는 자체 정보에 따라 저장되고 분류된 데이터 집합의 대규모 수집입니다. 분석가는 이렇게 새로 저장된 테이블과 데이터 집합에 접근합니다. 테이블과 데이터 집합은 정형화되고, 데이터는 필요 시 접근할 수 있도록 패키지화됩니다. 이 경우, 데이터를 올바르게 보관하고 필요할 때 호출하려면 모든 데이터를 분석해야 합니다. 

데이터 웨어하우스 시스템에서는 사용자가 특정 테이블에 접근하기 쉬운 반면, 초기 분석과 저장에 시간이 오래 걸리고 리소스가 많이 필요할 수 있습니다. 게다가 잘못 사용되는 데이터 웨어하우스는 비효율적일 수 있습니다. 즉각 사용되지 않거나 용도가 분명하지 않은 데이터는 잊히거나 분석에서 제외될 수 있기 때문입니다. 저장 비용이 늘어날 수 있기 때문에, 구조적 이점을 활용하려는 분석가와 IT 전문가는 데이터 웨어하우스의 확장 전략을 신중히 세워야 합니다.

다른 한편, 데이터 레이크는 이와 정반대입니다. 데이터 웨어하우스가 통제되고 카탈로그화된다면, 데이터 레이크는 모든 데이터가 자유롭게 흐르는 거대한 덤프입니다. 모든 데이터는 분석 또는 사용 여부와 관계없이, 간헐적으로 사용되더라도 저장됩니다. 데이터는 원시 형태로 가져오고 필요할 때만 분석됩니다. Hadoop은 하드웨어 측면에서 꽤 경제적이기 때문에 필요 시 손쉽게 확장하여 대량의 데이터를 저장하거나 구문 분석할 수 있습니다. 그러나 이는 사전 패키지된 테이블과 승인된 데이터 집합을 언제든지 사용할 수 있게 유지하기(즉, 데이터 웨어하우스의 핵심 이점)가 좀 더 어렵다는 의미입니다. 데이터 레이크 확장은 거버넌스 전략과 교육의 확대를 의미합니다.

이 두 가지 데이터 저장 방법은 저마다 고유한 이점이 있기 때문에, 기업은 다양한 데이터 요구에 따라 데이터 웨어하우스와 데이터 레이크를 모두 사용하기도 합니다.