SQL 공부일지

SQL 공부 일지 3일차 230812

우기37 2023. 8. 12. 00:00

## 공부정리

2장 데이터 모델과 성능

1) 성능 데이터 모델링의 개요

2) 정규화와 성능

3) 반정규화와 성능

 

 

 

#1 성능 데이터 모델링의 개요

1 성능 데이터 모델링 정의

- 데이터 베이스 성능 향상을 목적으로 데이터 모델링을 수행하는 것

- 정규화, 반정규화, 테이블 통합 및 수직 또는 수평 분할, 조인 구조, PK / FK 설정 등

- 논리적 테이블을 물리적 테이블로 전환할 때 데이터 처리 성격에 따라 변환

 

 

2 수행 시점

- 빠를수록 좋다

- 분석/설계 단계에서 성능 모델링 수행 Best -> 재업무 비용 최소화

분석/설계 단계에서 데이터 모델에 성능을 고려한 데 이터 모델링을 수행할 경우 성능저하에 따른 재업무 비용을 최소화 할 수 있는 기회를 가지게 된다. 데이터의 증가가 빠를수록 성능저하에 따른 성능개선 비용은 기하급수적으로 증가하게 된다.

 

 

3 성능 데이터 모델링 고려사항

1) 정규화를 정확하게 수행 : 주요 관심사별로 테이블을 분산시킴

2) DB 용량산정 수행 : 각 엔터티에 어느 정도의 트랜잭션이 들어오는지 파악

3) DB에 발생되는 트랜잭션의 유형 파악 : CRUD 매트릭스 활용

4) 용량과 트랜잭션의 유형에 따라 반정규화 수행 : 테이블, 속성, 관계 변경

5) 이력모델의 조정, 인덱스를 고려한 PK/FK의 순서 조정, 슈퍼/서브타입 조정 등 수행

6) 성능관점에서 데이터 모델 검증

 

 

#2 정규화와 성능

1 정규화(Normalization)

정의 : 데이터 분해 과정, 이상현상 제거

목적 : 삽입/삭제/갱신 이상현상 방지

함수적 종속성에 기반한 정규화 수행 필요

 

 

2 함수적 종속성(FD, Functional Dependency)

데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭, 결정자와 종속자의 관계, 결정자의 값으로 종속자의 값을 알 수 있음

결정자 ex) 학번, 주민등록번호

종속자 ex) 이름, 혈액형, 출생지, 주소

(학번은 이름과 혈액형을 함수적으로 결정, 이름과 혈액형은 학번에 함수적으로 종속된다.)

 

 

3 종류

정규형(NF, Normal Form)

정규화로 도출된 데이터 모델이 갖춰야 할 특성

1) 1NF(1 Normal Form)

모든 값이 원자값을 가짐

2) 2NF

부분함수종속 제거

3) 3NF

이행함수종속 제거(식별자가 아닌 속성(주식별자의 일부 or 일반속성)이 결정자 역할하는 함수 종속 제거)

 

 

4 정규화의 효과

- 성능 = 조회, 입력/수정/삭제 2가지로 분류

- 데이터 중복 감소 -> 성능 향상

- 데이터가 관심사별로 묶임 -> 성능 향상

- 조회 질의에서 조인이 많이 발생 -> 성능 저하

- 입력/수정/삭제의 경우 성능 향상 -> but! 조회의 경우 처리조건에 따라 향상 or 저하

 

 

 

#3 반정규화와 성능

1 반정규화 (=역정규화=Denormalization)

- 정규화된 엔터티, 속성, 관계에 대해 성능 향상을 목적으로 중복, 통합, 분리를 수행하는 데이터 모델링 기법(cf. 비정규화 : 정규화를 수행하지 않음)

- 일반적으로 정규화시 입력/수정/삭제 성능이 향상되며 반정규화시 조인 성능이 향상된다.

 

 

2 특징

- 테이블, 컬럼, 관계의 반정규화를 종합적으로 고려(일반적으로 속성(칼럼)의 중복 시도)

- 과도한 반정규화는 데이터 무결성을 침해

 

 

3 반정규화 사전절차

1) 반정규화 대상 조사 : 데이터 처리 범위 및 통계성 등 조사

2) 다른 방법 검토 : 뷰, 클러스터링, 인덱스, 애플리케이션

3) 반정규화 적용 : 정규화 수행 후 반정규화 수행

 

 

4 반정규화 기법

1) 테이블 반정규화

- 테이블 병합 : 관계, 병합, 슈퍼/서브 타입 병합(one to one, plus, single type = 1:1관계, 1:M관계, 슈퍼/서브타입)

1. 1:1관계를 통합하여 성능향상
2. 1:M관계를 통합하여 성능향상
3. 슈퍼/서브 관계를 통합하여 성능향상

 

- 테이블 분할 : 수직, 수평 분할

1. 칼럼단위 테이블을 디스크 I/O를 분산처리하기 위 해 테이블을 1:1로 분리하여 성능향상
2. 로우단위로 집중 발생되는 트랜잭션을 분석하여 디 스크 I/O 및 데이터 접근의 효율성을 높여 성능을 향 상하기 위해 로우단위로 테이블을 쪼갬

 

- 테이블 추가 : 중복 테이블 / 통계 테이블 / 이력 테이블 / 부분 테이블 추가

1. 다른 업무이거나 서버가 다른 경우 동일한 테이블 구조를 중복하여 원격조인을 제거하여 성능 향상
2. SUM, AVG 등을 미리 수행하여 계산해 둠으로써 조회 시 성능을 향상

3. 이력테이블 중에서 마스터 테이블에 존재하는 레코드를 중복하여 이력테이블에 존재시켜 성능 향상

4. 하나의 테이블의 전체 칼럼 중 자주 이용하는 집중화된 칼럼들이 있을 때 디스크 I/O를 줄이기 위해 해당 칼럼들을 모아놓은 별도의 반정규화된 테이블을 생성

 

 

2) 칼럼 반정규화

- 중복칼럼 추가 : 조인 횟수를 감소시키기 위해 다른 테이블의 칼럼 중복 칼럼 저장

- 파생칼럼 추가 : 값의 계산으로 인한 성능 저하 예방, 예상값을 미리 계산해서 중복 칼럼 저장(Derived 칼럼)

- 이력테이블 칼럼 추가 : 기능성 칼럼, 대량 이력 데이터 처리의 성능 향상을 위해 종료 여부, 최근값 여부 등의 칼럼 추가로 저장

- PK의 의미적 분리를 위한 칼럼 추가 : PK가 복합 의미를 갖는 경우 단일 속성을 구성시 발생, 구성 요소 값의 조회 성능 향상을 위해 일반 속성을 추가

- 데이터 복구를 위한 칼럼 추가 : 사용자의 실수 또는 응요프로그램 오류로 인해, 데이터가 잘못 처리된 경우 원래 값으로 복구 위해 이전 데이터를 임시로 중복 저장

 

 

3) 관계 반정규화

- 중복관계 추가 : 조인으로 정보 조회가 가능 but 조인 경로 단축을 위해 중복관계 추가

* 테이블과 칼럼의 반정규화는 데이터 무결성에 영향을 미침

* 관계의 반정규화는 데이터 무결성 보장 가능, 데이터 처리 성능 향상