SLA
“서비스 수준을 정량 지표로 합의한 계약. 운영·검수의 기준.”
SLA란 무엇인가
SLA(Service Level Agreement, 서비스 수준 합의)는 제공자가 보장할 서비스의 수준을 정량 지표로 명시하고 발주자와 합의한 계약 문서다. 가용성, 응답 시간, 장애 복구 시간, 결함조치율처럼 측정 가능한 항목을 수치로 못박는 데 핵심이 있다.
막연히 안정적으로 운영한다는 약속은 분쟁의 씨앗이 되지만, 월간 가용성 몇 퍼센트 이상처럼 숫자로 합의하면 운영과 검수의 기준이 분명해진다. 착수 단계의 발주에서 SLA가 빠지면 이후 모든 품질 판단이 주관에 휘둘린다.
지표로 합의해야 분쟁이 줄어든다
SLA의 본질은 측정 가능한 지표의 합의다. 가용성은 약속한 시간 대비 실제 정상 운영 시간의 비율로 산정하고, 장애 대응은 인지 시점부터 복구 완료까지의 경과 시간으로 정의한다.
같은 99퍼센트라도 측정 구간을 월 단위로 보느냐 연 단위로 보느냐에 따라 허용 장애 시간이 크게 달라진다. 그래서 지표의 정의, 측정 주기, 산정에서 제외하는 계획 점검 시간까지 사전에 못박아야 한다.
모호하게 남긴 정의는 사고가 난 뒤 반드시 서로 다르게 해석된다.
ITIL 4와 IT 서비스 관리
SLA는 IT 서비스 관리 체계 안에서 자리를 잡을 때 제 기능을 한다. ITIL 4는 서비스를 일회성 납품이 아니라 지속적으로 가치를 만들어내는 관계로 본다.
이 관점에서 SLA는 그 관계가 어느 수준에서 유지되어야 하는지를 규정하는 합의 장치다. 내부 부서 간 약속인 OLA나 협력사와의 기반 계약과 층위를 맞추지 못하면, 대외로 약속한 SLA를 내부 역량이 떠받치지 못하는 구조적 모순이 생긴다.
| 지표 | 정의 | 합의 포인트 |
|---|---|---|
| 가용성 | 정상 운영 시간 비율 | 측정 주기·제외 시간 |
| 응답 시간 | 요청 대비 응답 속도 | 목표값·구간 |
| 복구 시간 | 인지부터 복구까지 | 산정 기준 명시 |
위약 조항과 보상 설계
SLA에는 목표 미달 시의 책임도 함께 담긴다. 합의한 수준을 지키지 못했을 때의 서비스 크레딧이나 보상 비율을 정해 두는 것이 일반적이다.
다만 페널티를 과도하게 설계하면 제공자가 위험을 회피하려고 보수적으로 운영하거나 단가에 위험 비용을 얹어, 결국 발주자가 부담하게 된다. 따라서 처벌의 강도보다 측정의 투명성과 재발 방지의 약속을 우선하는 편이 관계를 길게 가져간다.
보상은 손실 보전이 아니라 수준 회복을 유도하는 장치로 보는 것이 합리적이다.
검수와 운영의 기준선
SLA는 운영 단계에서만 쓰이는 것이 아니라 검수의 잣대가 된다. 인수 시점에 합의한 성능과 가용성 지표를 충족하는지 확인하고, 운영 전환 후에는 동일한 지표로 월별 실적을 평가한다.
이때 측정 도구와 데이터 출처가 양측이 신뢰할 수 있어야 한다. 제공자가 제출한 수치를 발주자가 검증할 수 없으면 SLA는 형식적인 문서로 전락한다.
측정 근거를 함께 확인할 수 있는 모니터링 체계를 갖추어야 합의가 실제로 작동한다.
현실적인 수준으로 합의하라
높은 목표가 항상 좋은 SLA는 아니다. 가용성 목표를 한 단계 올릴 때마다 이중화와 운영 인력 부담이 비선형으로 커지므로, 비즈니스가 실제로 요구하는 수준을 넘어선 과잉 보장은 비용 낭비다.
반대로 핵심 업무 시간대의 짧은 중단이 치명적인 서비스라면 평균 가용성보다 특정 시간대 보장에 무게를 두어야 한다. 결국 좋은 SLA란 가장 엄격한 약속이 아니라, 업무 가치와 운영 현실이 만나는 지점을 정직하게 수치로 옮긴 합의다.
관련 용어