Pink Spider/정규화(Normalization)와 반정규화(Denormalization) 의 트레이드오프

데이터베이스 설계에서 **정규화(Normalization)**와 **반정규화(Denormalization)**는 데이터의 **무결성(Integrity)**과 성능(Performance) 사이의 균형을 맞추는 핵심적인 개념입니다.

이 둘의 관계는 흔히 **“데이터 정합성 vs. 읽기 성능”**의 트레이드오프(Trade-off)로 요약할 수 있습니다. 각 개념의 특징과 트레이드오프 요소를 상세히 분석해 드리겠습니다.

가장 먼저 이해해야 할 큰 그림은 다음과 같습니다.

데이터의 중복을 최소화하고, 이상 현상(Anomaly)을 방지하기 위해 테이블을 분리하는 과정입니다.

주요 목표: 데이터 무결성 보장, 저장 공간 효율화.
장점:
데이터 일관성: 데이터가 한 곳에만 존재하므로, 수정 시 한 군데만 고치면 됩니다.
저장 공간 절약: 중복 데이터가 제거되어 디스크 공간을 효율적으로 씁니다.
이상 현상 방지: 삽입, 삭제, 갱신 시 발생하는 불일치 문제를 막습니다.
단점 (트레이드오프):
읽기 성능 저하: 데이터를 조회할 때 여러 테이블을 JOIN해야 하므로 CPU 연산 비용이 증가하고 응답 속도가 느려질 수 있습니다.

💡 핵심: 정규화는 “쓰기(Write/Update)” 작업에 유리하고 데이터 관리를 편하게 해줍니다.

시스템의 성능 향상(주로 조회 속도)을 위해 정규화된 데이터 모델을 의도적으로 통합하거나 중복 데이터를 허용하는 과정입니다.

주요 목표: 읽기 성능(Read Performance) 최적화.
장점:
빠른 조회 속도: JOIN 연산을 줄이거나 없애서 데이터를 즉시 가져올 수 있습니다.
쿼리 단순화: 복잡한 로직 없이 간단한 SELECT 문으로 데이터를 조회할 수 있습니다.
단점 (트레이드오프):
데이터 무결성 위험: 데이터가 여러 곳에 중복 저장되므로, 한 곳만 수정되고 다른 곳은 수정되지 않는 데이터 불일치가 발생할 수 있습니다.
쓰기 성능 저하: 데이터를 생성/수정할 때 중복된 모든 데이터를 동시에 갱신해야 하므로 쓰기 비용이 증가합니다.
저장 공간 증가: 중복 데이터만큼 더 많은 디스크 공간이 필요합니다.

💡 핵심: 반정규화는 “읽기(Read)” 작업에 유리하지만, 데이터 관리 난이도를 높입니다.

무조건적인 반정규화는 위험합니다. 일반적으로 다음과 같은 순서로 접근하는 것이 정석입니다.

최후의 수단으로 반정규화: 위 방법으로도 해결되지 않을 때, 조회 빈도가 매우 높고 갱신 빈도가 낮은 데이터에 한해 부분적으로 반정규화를 수행합니다.

반정규화가 효과적인 예시:

쇼핑몰의 ‘주문 내역’ 테이블에 ‘상품명’이나 ‘상품 가격’을 중복 저장 (상품 정보가 바뀌어도 과거 주문 내역의 가격은 변하면 안 되기 때문 + 조회 속도 향상).
게시판의 ‘게시글’ 테이블에 ‘댓글 수(count)’ 컬럼 추가 (매번 count(*)를 수행하는 비용 절감).

데이터 모델링은 정답이 있는 것이 아니라, 비즈니스 요구사항(데이터 정확도가 중요한가, 속도가 중요한가)에 맞춰 최적의 균형점을 찾는 과정입니다.