대표사진
tobewiseys
  1. 데이터베이스

이미지


https://www14.software.ibm.com/webapp/iwm/web/signup.do?source=sw-infomgt&S_PKG=500009343&S_CPM=is_dwebook2_library


도입부분과 결론부분만 번역해 보았다. 해석상 잘못된 부분은 나의 부족함 때문이며 고의성은 전혀 없다.

---
도입 
IBM Netezza DW(Data Warehouse) 어플라이언스는 대량의 데이터를 분석 및 질의하는데 중점을 두고 있다. Oracle Exadata는 IBM의 Netezza DW 어플라이언스가 하는 것을 모두 하면서 OLTP도 처리하고 있다. 이 문서는 DW 측면에서 비교를 한 것으로 IBM에서 작성한 것이다.

IBM Netezza는 성능단순성측면에서 장점을 가진다. 여기서 단순성이란 linux와 SQL에 관한 기본적인 지식만 있어도 동적으로 변화하는 부하에 대비하여 지속적인 서비스 레벨을 유지하는 관리 업무를 수행할 수 있음을 의미한다. 이런 특성은 소유비용이나 운영비용을 줄여주며, 분석업무를 수행하는 애플리케이션을 운영할 수 있게 한다.

Oracle ExadataSUN의 대량 병렬처리 스토리지와 OLTP용 DBMS를 이용하여, OLTP와 분석 질의 양쪽측면에서 성능의 극대화 약속하였다. Oracle Exadata V2는 이와 같이 서로 다른 종류의 부하를 처리할 수 있는 다목적 플랫폼이다.

이 문서는 OLTP 와 분석질의 처리의 차이에 대해서 설명하고, Exadata와 IBM Netezza를 성능과 운영의 단순성측면에서 비교할 것이다.

참고사항: IBM Netezza 팀은 Exadata를 직접 조작하지 않고, 양쪽 기술을 평가한 기관으로부터 정보를 얻었다. 현재 Oracle의 Exadata에 관하여 공식으로 얻을 수 있는 정보가 매우 적으며, 이로 인하여 잘못된 결과는 순전히 작성한 우리의 잘못으로 고의성이 있는 것은 아니다. 

OLTP(Online Transaction Processing)과 Data Warehousing
OLTP 시스템은 거래의 범위가 작고, 처리되는 행의 수가 적고, 필요한 데이터가 캐쉬되는 경우가 많다. 질의가 대량의 데이터를 처리하는 경우에도, 변경은 현재 데이터에서 이루어진다. 주로 업무처리를 수행하며, 데이터들은 일반적으로 3차정규형으로 구조화되어 있다.  OLTP 시스템의 거래유형은 안정적이고 필요한 데이터의 요구사항이 잘 알려져 있어서 인덱스 사용이 유용하다.

DW 시스템은 현재와 이력데이터에 대하여 대량의 데이터를 읽어야 한다. OLTP가  테이블 행의 적은 부분을 처리했다면, DW질의는 수십억개 행을 가진 테이블들을 읽고 조인을 수행해야 한다. DW에 대한 질의는 예측하기 힘들기 때문에, 캐쉬의 데이터를 이용하거나, 적절한 인덱스를 만드는 전략이 어렵다. 또한, DW를 위한 데이터구조는 3차정규형일수도 있지만 일반적으로 스타구조(Star Scheme), 스노우플레이크 구조(snowflake scheme, 눈송이구조)를 가질 수 있다. DW로 적재되는 데이터는 정제, 반복 제거, 통합 작업이 이루어진다. 

이 문서에서 DW를 표준은 아니지만 1세대와 2세대로 나누어서 이야기할 것이다. 
1세대 DW는 데이터들은 밤에 적재되고, 자주 변하지 않는 SQL 기반 보고서나 대쉬보드(dashboard)를 통하여 정보를 제공한다.  이러한 1세대 DW는 부하나 요구되는 데이터의 측면에서 보면 OLTP와 유사하기 때문에 고객들은 OLTP에서 사용하였던 같은 DBMS를 선택하였다. 실제 운영에서, DBA는 각 보고서의 SQL문장을 분석하여 인덱스를 만들어 속도를 향상시켰다. 이와같이 OLTP 기법을 활용하는 것은 데이터의 양이 관리할 수 있는 범위에 있을 때만 유효한 것이다.

최근에는 공공부분에서 매년 데이터가 30~50% 증가하고 있기 때문에, 성공적인 OLTP 기법이나 사례들은 더 이상 DW 분야세서 적용하기 어려워지고 있다. 대표적인 예로, 대량의 데이터를 적재할 때, 여러 인덱스를 업데이트하는 부하가 발생하기 때문에, 정해진 시간 내에 작업을 완료할 수 없는 경우가 발생한다. 장시간 작업을 핬음에도 불구하고, 업무부서는 보고서 작성이 가능하기까지 시간이 오래 걸리므로 생산성이 떨어지게 된다.

2세대 DW는 지속적으로 데이터를 수정하여 야간 배치작업을 대체하고, 사건의 기록과 분석사이의 지연을 줄이고, 보고서나 대쉬보드를 위한 SQL문 대신에, 선형회귀분석, Naive Bayes나 수학적 알고리즘을 사용하여 분석한다. 업무 담당자는 자신들이 원하는 방식으로 원하는 시간에 데이터를 접근하기를 원한다. 이러한 요구는 DBA가 튜닝작업에 따라 성능이 좌우되는 기술로는 해결이 되지 않는다.


Query Performance (질의 성능)
Oracle Exadata

Oracle이 Sun과 합병하면서, DW를 위한 소프트웨어와 하드웨어의 최적화가 유용하다는 결론을 내리고, 스토리지 시스템, 고속 네트워크(InfiniBand), Oracle DB 11g V2 with RAC(Real Application Clusters)로 이루어진 Exadata를 만들었다. 하나의 랙(rack)에는 Exadata cell이라고 불리는 14개 스토리지 서버가 MPP(Massively Parallel Processing) 그리드 형태로 있으며, 8개의 symmetric multi-processing 노드형태로 Oracle RAC가 구성되어 있다.
 
이하 중간은 나중에 시간이 되면 보충하겠다. ... 생략... 
비교 결과는 15페이지에 있음...



Conclusion
IBM Netezza DW 어플라이언스는 Oracle DW에 대한 주요 대안으로 대두되었다.  Oracle DW와 DM(Data Mart)를 IBM Netezza DW로 마이그레이션하는 것은 새로운 기회가 될 것이다.  IBM고객중 다수가 이러한 작업을 이미 수행하였다.  Exadata는 Oracle의 OLTP 플랫폼이 진화한 것으로, OLTP와 분석업무 양쪽을 위한 다목적으로 사용되는 것을 목적으로 하고 있다. Oracle의 DBMS는 OLTP를 위하여 설계된 것으로 데이터의 양이 DW에 비해서 상대적으로 적은 경우에 적합하다OLTP 시스템은 운영되기 전에 각 거래의 설계, 테스트, 최적화를 수행할 시간이 존재한다. 하지만 DW는 업무 담당자가 자신의 데이터에 대하여 어떤 질의를 하던지 바로 처리되어야 한다. 이러한 경우 관리자가 중간에 작업을 해야하는 기법은 적합하지 않다. 이러한 기법을 사용하는 경우에는 DW를 운영 및 관리하는 사람에게 부담을 주며 절차도 힘들어지게 된다.

Oracle은 고객에게 Exadata가 구조적으로 IBM Netezza DW 어플라이언스와 유사하거나 더 낫다고 말한다. IBM Netezza는 모든 데이터 타입을 지원하지도 않고, SQL 표준을 지원하지 않고, 데이터 마이닝이나, 높은 동시성을 지원하지 않는다고 한다. IBM Netezza DW 어플라이언스 고객들은 이 말에 동의하지 않는다

다른 유형의 부하가 존재할 때, 고객들은 OLTP와 DW시스템을 같은 인프라에서 운영하려고 하지 않는다. 같은 인프라에서 운영하게 되면 지속적인 튜닝과 최적화가 필요하게 된다. 이런 경우, 기술자는 OLTP와 DW를 위한 성능사이에 절충을하던가 서로 다른 유형의 부하 충돌을 해결하기 위하여 끊임없이 DB를 변경하는 작업을 수행해야 한다.

2세대 DW에서는 OLTP와 DW를 다른 플랫폼에서 운영한다. 각각의 부하에 적합하도록 최적화되는 것이다.

실제로 고객의 DW에서 얼마나 IBM Netezza DW가 잘 작동하는지 알기 위하여 POC(Proof-of-concept)를 수행하는 것이 필요하다. POC를 할 때 Curt Monash의 "Best practices for analytic DBMS POCs"를 참고해서 하는 것이 바람직하다. 특히, 성공적인 결과를 위해서는 POC 프로젝트에 대해서 독립적인 컨설턴트가 주된 역할을 하는 것이 필요하다.  IBM Netezza 어플라이언스 마이그레이션 경험에 대한 정보는 http://www.ibm.com/software/data/netezza 를 참조하기 바란다.

 
--------------
중간에 Oracle Exadata와 IBM Netezza 부분에 대한 설명, 비교 결과표 부분에 대한 요약은 시간이 나면 하겠다.

결론적으로 ... 데이터 양이 상대적으로 적은 경우에는 Oracle Exadata를 사용해서 OLTP와 DW를 위하여 사용해도 문제가 없어 보이나, 데이터 양이 많아지면 Oracle Exadata의 DBMS가 OLTP에서부터 시작했기 때문에 한계가 존재한다는 것이고 이런 부분에서 IBM Netezza가 강점을 가진다는 이야기이다. 

다만, IBM Netezza의 지원되는 데이터 타입문제,SQL 표준에 따르지 않는 부분 등 때문에, 신규 구축이 아닌 경우에, 기존의 application을 얼마나 변경해야 하는지에 대해서 알기 어렵다. 이 글에서는 마이그레이션에 대해서 별 문제가 없었다고 하는데...(POC를 수행하면 알겠지만)  좀 더 구체적인 자료를 찾아 봐야 할 것 같다.  

이 글에서, 1세대 DW는 야간 배치 작업에 의한 데이터 적재, 정형화된 질의에 의한 보고서 작성이 주된 포인트라면, 2세대 DW는 좀 더 발전하여 수시 또는 실시간 데이터 적재/업데이트를 기반으로 한, 파워 사용자의 비정형 질의 기반 OLAP을 주된 포인트로 설명하고 있다.

파워 사용자가 비정형질의를 DW에게 요청했을 때 과연 DW 시스템이 적시성을 만족할만큼 빠른 응답을 해 줄 수 있느냐가, 사업의 기회를 활용하는 측면에서 중요할 터인데... , 급속히 증가하는 데이터에 대하여 1세대 DW 시스템과 OLTP 기반 DBMS로는 해결이 어렵다는 것이 이 글의 주된 포인트라고 해석하면 될 것 같다. 

좋아요
댓글
0
작성일
2023.04.26

댓글 0

빈 데이터 이미지

댓글이 없습니다.

첫 번째 댓글을 남겨보세요.

tobewiseys님의 최신글

  1. 작성일
    2013.1.11

    좋아요
    댓글
    0
    작성일
    2013.1.11
    첨부된 사진
    20
  2. 작성일
    2012.12.24

    좋아요
    댓글
    0
    작성일
    2012.12.24
  3. 작성일
    2012.12.23

    좋아요
    댓글
    0
    작성일
    2012.12.23

사락 인기글

  1. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.16
    좋아요
    댓글
    170
    작성일
    2025.5.16
    첨부된 사진
    첨부된 사진
    20
  2. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.19
    좋아요
    댓글
    133
    작성일
    2025.5.19
    첨부된 사진
    첨부된 사진
    20
  3. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.16
    좋아요
    댓글
    88
    작성일
    2025.5.16
    첨부된 사진
    첨부된 사진
    20
예스이십사 ㈜
사업자 정보