재해복구
“재해 시 시스템·데이터를 복구하는 계획과 체계. RTO·RPO 기준.”
재해복구란 무엇인가
재해복구(Disaster Recovery, DR)는 화재·정전·자연재해·대규모 장애처럼 정상 운영을 중단시키는 사건이 발생했을 때 시스템과 데이터를 정해진 수준으로 되살리기 위한 계획과 체계다. 일상적인 오류 대응이 아니라, 서비스가 광범위하게 마비된 상황을 전제로 한다는 점에서 통상의 장애관리와 구분된다.
핵심은 사고가 터진 뒤에 무엇을 할지 즉흥적으로 정하는 것이 아니라, 평시에 복구 절차·역할·자원을 문서로 확정해 두는 데 있다. 인도·운영 단계에서 서비스의 연속성을 보장하는 마지막 안전장치라 할 수 있다.
RTO와 RPO라는 두 기준
DR 설계의 출발점은 두 가지 목표 지표다. RTO(Recovery Time Objective)는 장애 발생 시점부터 서비스를 다시 정상화하기까지 허용 가능한 최대 시간이며, RPO(Recovery Point Objective)는 복구 시 감수할 수 있는 데이터 손실의 시간 폭을 뜻한다.
RTO가 짧을수록 빠른 절체 체계가 필요하고, RPO가 짧을수록 백업·복제 주기를 촘촘히 가져가야 한다. 이 두 값은 기술적 선택이 아니라 비즈니스가 감내할 수 있는 손실 한계에서 역산되는 값이다.
따라서 RTO·RPO 합의 없이 시작한 DR 설계는 근거 없는 투자로 흐르기 쉽다.
복구 전략의 등급 차이
같은 DR이라도 투입 비용과 복구 속도에 따라 수준이 크게 갈린다. 데이터만 외부에 보관해 두고 사고 후 환경을 새로 구축하는 방식은 비용이 낮지만 복구가 느리다.
최소한의 인프라를 미리 띄워 두고 유사시 확장하는 방식은 중간 수준이며, 운영 환경과 동일한 대기 환경을 상시 가동해 즉시 절체하는 방식은 가장 빠르지만 비용이 크다. 어떤 등급을 택할지는 앞서 정한 RTO·RPO와 시스템의 중요도에 따라 달라진다.
모든 시스템에 최고 등급을 적용하는 것은 비효율이며, 업무 영향도에 따라 차등 적용하는 것이 정석이다.
| 구분 | RTO | RPO |
|---|---|---|
| 의미 | 복구 허용 시간 | 손실 허용 폭 |
| 짧으면 | 빠른 절체 필요 | 촘촘한 복제 |
| 결정 근거 | 업무 영향도 | 데이터 가치 |
DR 사이트와 데이터 동기화
빠른 복구를 위해서는 주 운영 센터와 물리적으로 떨어진 별도의 복구 거점, 즉 DR 사이트를 둔다. 두 거점 사이에서 데이터를 어떻게 맞추느냐가 RPO를 좌우한다.
변경을 즉시 양쪽에 반영하는 동기 복제는 손실을 최소화하지만 거리와 지연에 민감하고, 일정 주기로 모아 보내는 비동기 복제는 성능 부담이 작은 대신 일부 손실을 감수한다. 거점 자체가 같은 재해의 영향권에 들지 않도록 입지를 분리하는 것도 중요한 설계 요소다.
동기화 방식과 입지 선정은 비용·성능·안전성의 균형 위에서 결정된다.
훈련 없는 계획은 종이일 뿐
DR 계획의 진짜 가치는 문서가 아니라 실제로 작동하는지에서 드러난다. 절차서를 아무리 정교하게 써 두어도 절체 권한·연락 체계·복구 순서가 실제 상황에서 막히면 무용지물이 된다.
그래서 정기적인 복구 훈련을 통해 RTO·RPO가 실측으로 달성되는지 검증해야 한다. 훈련에서는 흔히 백업은 있으나 복원이 되지 않거나, 의존 시스템의 복구 순서가 어긋나는 문제가 드러난다.
이렇게 발견된 결함을 계획에 환류하는 반복이 DR 체계를 성숙시킨다. 검증되지 않은 DR은 있다고 믿는 순간 가장 위험하다.
백업·복구 및 운영과의 관계
DR은 백업·복구를 토대로 삼되 그보다 넓은 개념이다. 백업·복구가 데이터 자산의 보존과 복원에 초점을 둔다면, DR은 데이터에 더해 인프라·네트워크·인력·절차까지 포함한 서비스 전체의 연속성을 다룬다.
일상적 오류를 처리하는 장애관리가 평시의 흐름이라면, DR은 그 흐름이 광범위하게 끊겼을 때 가동되는 비상 체계다. 운영 단계에서 DR은 한 번 만들고 끝나는 산출물이 아니라, 시스템 구성이 바뀔 때마다 함께 갱신되어야 하는 살아 있는 계획이다.
변경관리와 맞물려 지속적으로 손질될 때 비로소 실효를 가진다.
관련 용어