ITIL Overview
IT 서비스 관리(ITSM) 프레임워크, 서비스 가치 체계, 핵심 프랙티스
🎯 ITIL이란?
ITIL (Information Technology Infrastructure Library): IT 서비스 관리(ITSM)를 위한 베스트 프랙티스 프레임워크.
| 항목 | 설명 |
|---|---|
| 발행 | Axelos (현 PeopleCert), 영국 정부에서 시작 |
| 현재 버전 | ITIL 4 (2019) |
| 성격 | IT 서비스를 어떻게 관리/운영할 것인가 |
| 자격증 | ITIL Foundation → Managing Professional → Strategic Leader |
| 적용 범위 | IT 서비스를 제공하는 모든 조직 |
ITIL의 역사
| 버전 | 연도 | 특징 |
|---|---|---|
| ITIL v1 | 1989 | 영국 정부 IT 운영 가이드 (40권+) |
| ITIL v2 | 2000 | 서비스 지원 + 서비스 제공으로 정리 |
| ITIL v3 | 2007 | 서비스 라이프사이클 5단계 |
| ITIL 4 | 2019 | 가치 체계 중심, Agile/DevOps 포용 |
왜 알아야 하나?
| 이유 | 설명 |
|---|---|
| 운영 이관 | SI 구축 후 운영 단계에서 ITIL 기반 체계를 요구하는 경우 |
| SLA 관리 | 서비스 수준 관리의 표준 프레임워크 |
| PPDIOO와 연결 | PPDIOO의 Operate/Optimize 단계를 깊게 다루는 것이 ITIL |
| 공통 언어 | 인시던트, 문제, 변경 같은 운영 용어의 출처 |
| 제안서 | "ITIL 기반 운영 체계 수립" 문구가 제안서/RFP에 등장 |
다른 프레임워크와의 관계
| 프레임워크 | 범위 | 초점 |
|---|---|---|
| PMBOK | 프로젝트 (한시적) | 관리 |
| SI 라이프사이클 | 구축 프로젝트 | 절차/산출물 |
| PPDIOO | 설계~운영 | 기술 수명주기 |
| ITIL | 운영 (지속적) | 서비스 관리 |
📊 핵심 개념
서비스 (Service)
ITIL에서 가장 중요한 개념. 모든 것을 "서비스"로 봄.
| 용어 | 설명 |
|---|---|
| 서비스 | 고객이 특정 비용/리스크 없이 원하는 결과를 얻도록 가치를 제공하는 수단 |
| 서비스 제공자 | 서비스를 만들고 운영하는 조직 (IT 부서, MSP 등) |
| 서비스 소비자 | 서비스를 사용하는 사람/조직 (사용자, 고객) |
인프라 관점 예시:
| 서비스 | 제공자 | 소비자 |
|---|---|---|
| 이메일 시스템 | IT 인프라팀 | 전 직원 |
| ERP 시스템 | SI 운영팀 | 업무 담당자 |
| 클라우드 IaaS | CSP (AWS, NCP 등) | 개발팀 |
가치 (Value)
ITIL 4의 핵심 철학: IT 활동의 목적은 가치 창출.
| 개념 | 질문 | 인프라 예시 |
|---|---|---|
| 유용성 | "필요한 기능이 있나?" | DB 서비스가 CRUD를 지원하는가 |
| 보증 | "안정적으로 쓸 수 있나?" | 가용성 99.9%, 응답시간 3초 이내 |
🏗️ ITIL 4 서비스 가치 체계 (SVS)
ITIL 4의 최상위 구조. 모든 구성 요소가 가치 창출을 향함.
| 구성 요소 | 설명 |
|---|---|
| 지도 원칙 | 의사결정의 가이드라인 (7개) |
| 거버넌스 | 조직의 방향 설정, 감독 |
| 서비스 가치 사슬 | 가치 창출의 운영 모델 (6개 활동) |
| 프랙티스 | 조직의 자원을 활용한 작업 수행 방법 (34개) |
| 지속적 개선 | 모든 수준에서의 지속적 개선 |
🧭 7대 지도 원칙 (Guiding Principles)
모든 ITIL 활동에 적용되는 의사결정 가이드라인.
| # | 원칙 | 설명 | 인프라 예시 |
|---|---|---|---|
| 1 | 가치에 집중 | 모든 활동이 가치 창출에 기여해야 | 모니터링 대시보드가 실제 의사결정에 쓰이는가? |
| 2 | 현재에서 시작 | 기존 것을 버리지 말고 활용 | AS-IS 장비 중 재활용 가능한 것은? |
| 3 | 피드백과 함께 반복 | 한 번에 다 하지 말고 단계적으로 | 전체 이관 대신 서비스별 순차 전환 |
| 4 | 협업하고 가시성 확보 | 사일로를 깨고 투명하게 | 인프라/개발/보안 팀 간 장애 정보 공유 |
| 5 | 총체적으로 사고 | 부분이 아닌 전체를 보기 | 네트워크만 빨라도 DB가 느리면 소용없음 |
| 6 | 단순하고 실용적으로 | 복잡한 프로세스는 지켜지지 않음 | 변경 관리 절차가 실제로 실행 가능한가? |
| 7 | 최적화하고 자동화 | 수작업을 줄이고 자동화 | 반복 점검을 스크립트/자동화로 전환 |
💡 7번 원칙이 DevOps/자동화와 연결되는 지점. ITIL 4에서 Agile/DevOps를 포용하려는 의도가 반영됨.
🔗 서비스 가치 사슬 (Service Value Chain)
가치를 만들어내는 6개 활동. 순서가 정해진 게 아니라 필요에 따라 조합함.
| 활동 | 설명 | 인프라 예시 |
|---|---|---|
| Plan | 방향 설정, 포트폴리오 관리 | 연간 인프라 투자 계획, 기술 로드맵 |
| Improve | 지속적 개선 | 성능 튜닝, 자동화 도입 |
| Engage | 이해관계자와 소통 | 사용자 요구사항 수집, SLA 협의 |
| Design & Transition | 서비스 설계, 변경 관리 | 신규 시스템 설계, 운영 이관 |
| Obtain/Build | 서비스 구성 요소 확보 | 장비 조달, 시스템 구축 |
| Deliver & Support | 서비스 제공, 운영 지원 | 일상 운영, 장애 대응, 백업 |
🛠️ 34개 프랙티스 (Practices)
ITIL v3에서는 "프로세스"라고 불렀던 것. ITIL 4에서는 프랙티스로 확장 (프로세스 + 사람 + 기술 + 정보).
3개 카테고리
| 카테고리 | 수 | 설명 |
|---|---|---|
| 일반 관리 | 14 | 조직 전반에 적용 |
| 서비스 관리 | 17 | IT 서비스에 특화 |
| 기술 관리 | 3 | 기술 인프라 관련 |
핵심 프랙티스 (인프라 엔지니어 관점)
34개 중 실무에서 자주 만나는 핵심 프랙티스를 중심으로 정리.
🔥 인시던트 관리 (Incident Management)
인시던트: 서비스의 정상적인 운영을 중단시키거나 품질을 저하시키는 계획되지 않은 사건.
목표: 가능한 빨리 정상 서비스로 복구.
심각도/우선순위 매트릭스:
| 영향도 높음 | 영향도 중간 | 영향도 낮음 | |
|---|---|---|---|
| 긴급도 높음 | P1 (Critical) | P2 (High) | P3 (Medium) |
| 긴급도 중간 | P2 (High) | P3 (Medium) | P4 (Low) |
| 긴급도 낮음 | P3 (Medium) | P4 (Low) | P4 (Low) |
에스컬레이션:
| 유형 | 설명 | 예시 |
|---|---|---|
| 기능적 에스컬레이션 | 전문 팀으로 이관 | L1 → L2 → L3 |
| 계층적 에스컬레이션 | 상위 관리자에게 보고 | 담당 → 팀장 → 부서장 |
인프라 인시던트 예시:
| 인시던트 | 심각도 | 대응 |
|---|---|---|
| 서버 다운 (서비스 중단) | P1 | 즉시 대응, HA 절체 확인 |
| 디스크 사용률 95% | P2 | 긴급 정리 또는 증설 |
| 백업 실패 | P3 | 원인 확인, 재수행 |
| 모니터링 알림 오탐 | P4 | 임계치 조정 |
💡 인시던트 관리의 핵심은 "원인 분석"이 아니라 "빠른 복구"임. 원인 분석은 문제 관리에서 함.
🔍 문제 관리 (Problem Management)
문제 (Problem): 하나 이상의 인시던트의 근본 원인 또는 잠재적 원인.
목표: 인시던트의 근본 원인을 찾아 재발을 방지.
인시던트 vs 문제:
| 구분 | 인시던트 | 문제 |
|---|---|---|
| 성격 | 증상 | 원인 |
| 목표 | 빠른 복구 | 재발 방지 |
| 시간 | 즉시 대응 | 시간을 두고 분석 |
| 예시 | "서버가 죽었다" | "왜 서버가 죽었나?" |
근본 원인 분석 (RCA) 기법:
| 기법 | 설명 |
|---|---|
| 5 Whys | "왜?"를 5번 반복하여 근본 원인 추적 |
| 피시본 다이어그램 | 원인을 카테고리별로 분류 (HW, SW, Network, 인적 오류) |
| 타임라인 분석 | 장애 발생 전후 이벤트를 시간순 정리 |
5 Whys 예시:
인시던트: WAS 서버 응답 지연
1. 왜? → WAS 서버 CPU 100%
2. 왜? → 특정 쿼리가 무한 루프
3. 왜? → 인덱스 없이 Full Scan
4. 왜? → 테이블 변경 후 인덱스 미적용
5. 왜? → 변경 시 DBA 리뷰 절차 없음
→ 근본 원인: DB 변경 관리 프로세스 부재
→ 대응: DB 변경 시 DBA 리뷰 필수화
🔄 변경 관리 (Change Enablement)
변경 (Change): IT 서비스에 영향을 줄 수 있는 모든 추가, 수정, 제거.
목표: 변경으로 인한 장애를 최소화하면서 신속하게 변경 수행.
💡 ITIL 4에서는 "Change Management"가 아니라 **"Change Enablement"**로 이름이 바뀜. 변경을 통제하는 것이 아니라 가능하게 하는 것이 목적.
변경 유형:
| 유형 | 승인 | 리스크 | 예시 |
|---|---|---|---|
| 표준 변경 | 사전 승인 | 낮음 | 사용자 계정 생성, 패스워드 리셋 |
| 일반 변경 | CAB 승인 | 중간 | 방화벽 룰 추가, 서버 증설, 패치 |
| 긴급 변경 | 긴급 CAB | 높음 | 보안 취약점 긴급 패치, 장애 대응 |
CAB (Change Advisory Board):
| 역할 | 설명 |
|---|---|
| 구성 | PM, 인프라, 개발, 보안, 운영 담당자 |
| 목적 | 변경의 리스크/영향 평가, 승인/반려 |
| 회의 | 정기 (주 1회) + 긴급 시 수시 |
PIR (Post-Implementation Review):
변경 후 검토. "변경이 성공했는가? 문제는 없는가?"
| 점검 | 내용 |
|---|---|
| 목표 달성 | 변경 목적이 달성되었는가 |
| 부작용 | 예상치 못한 영향은 없는가 |
| 프로세스 | 변경 절차가 적절했는가 |
| 교훈 | 개선할 점은 무엇인가 |
📊 서비스 수준 관리 (Service Level Management)
SLA (Service Level Agreement): 서비스 제공자와 고객 간에 합의한 서비스 수준.
목표: 서비스 품질 목표를 설정하고, 측정하고, 관리.
SLA 구조:
| 항목 | 내용 | 예시 |
|---|---|---|
| 가용성 | 서비스 가동 시간 비율 | 99.9% (월 43분 이하 중단) |
| 응답 시간 | 서비스 요청 후 응답까지 | 3초 이내 (95 percentile) |
| 장애 대응 | 장애 인지 후 대응 시작까지 | P1: 15분, P2: 30분 |
| 복구 시간 | 장애 발생 후 복구까지 | P1: 1시간, P2: 4시간 |
| 보고 | 운영 보고 주기 | 월간 운영 보고서 |
SLA 관련 용어:
| 용어 | 설명 |
|---|---|
| SLA | Service Level Agreement — 고객과의 합의 (외부) |
| OLA | Operational Level Agreement — 내부 조직 간 합의 |
| UC | Underpinning Contract — 외부 벤더와의 계약 |
SLA 위반 시:
| 단계 | 대응 |
|---|---|
| 경고 | 임계치 접근 시 사전 알림 |
| 위반 | 원인 분석, 재발 방지 계획 |
| 반복 위반 | 서비스 개선 계획 (SIP), 계약 조정 |
📦 서비스 구성 관리 (Service Configuration Management)
CI (Configuration Item): 관리 대상이 되는 모든 구성 요소.
CMDB (Configuration Management Database): CI와 그 관계를 저장하는 데이터베이스.
| CI 유형 | 예시 |
|---|---|
| HW | 서버, 스위치, 스토리지, 방화벽 |
| SW | OS, 미들웨어, DB, 애플리케이션 |
| 문서 | 설계서, 운영 매뉴얼, SOP |
| 서비스 | 이메일, ERP, 웹 서비스 |
CMDB가 중요한 이유:
- 장애 시: "이 서버가 죽으면 어떤 서비스가 영향받지?" → CMDB에서 관계 추적
- 변경 시: "이 스위치를 바꾸면 어떤 서버가 연결되어 있지?" → 영향 범위 파악
- 용량 관리: 전체 자산 현황 파악
CMDB 도구:
| 도구 | 특징 |
|---|---|
| ServiceNow | 엔터프라이즈 ITSM 플랫폼 |
| NetBox | 오픈소스 IPAM + DCIM |
| iTop | 오픈소스 CMDB/ITSM |
| Jira Service Management | Atlassian 생태계 |
🔁 지속적 개선 (Continual Improvement)
모든 프랙티스에 적용되는 상위 개념임. PPDIOO의 Optimize와 직접 연결됨.
개선 레지스터 (Improvement Register):
모든 개선 아이디어를 기록하고 추적하는 목록.
| ID | 개선 항목 | 출처 | 우선순위 | 상태 | 담당 |
|---|---|---|---|---|---|
| 1 | 백업 자동화 | 인시던트 분석 | 높음 | 진행 중 | 인프라팀 |
| 2 | 모니터링 임계치 조정 | 오탐 과다 | 중간 | 대기 | 운영팀 |
| 3 | 패치 관리 자동화 | 보안 감사 | 높음 | 계획 | 보안팀 |
🏗️ 추가 주요 프랙티스
릴리스 관리 (Release Management)
새로운 서비스나 변경된 서비스를 운영 환경에 배포하는 것을 관리함.
| 항목 | 설명 |
|---|---|
| 릴리스 계획 | 배포 일정, 순서, 롤백 계획 |
| 빌드/테스트 | 스테이징 환경에서 검증 |
| 배포 | 운영 환경에 적용 |
| 사후 검증 | 배포 후 정상 동작 확인 |
IT 자산 관리 (IT Asset Management)
IT 자산의 전체 수명주기를 관리함.
| 단계 | 활동 |
|---|---|
| 조달 | 구매/임대, 라이선스 확보 |
| 배치 | 설치, 구성, 사용자 할당 |
| 운영 | 사용 추적, 유지보수 |
| 폐기 | EOL 장비 처분, 데이터 삭제 |
가용성 관리 (Availability Management)
SLA에 정의된 가용성 수준을 달성하고 유지함.
| 지표 | 계산 | 설명 |
|---|---|---|
| 가용성(%) | (합의시간 - 중단시간) / 합의시간 × 100 | 서비스 가동률 |
| MTBF | 총 가동시간 / 장애 횟수 | 평균 장애 간격 |
| MTTR | 총 중단시간 / 장애 횟수 | 평균 복구 시간 |
| MTBSI | MTBF + MTTR | 평균 장애 간 시간 |
예시:
월간 서비스 시간: 720시간
중단 시간: 43분 (0.72시간)
가용성 = (720 - 0.72) / 720 × 100 = 99.9%
용량 및 성능 관리 (Capacity and Performance Management)
현재와 미래의 용량/성능 요구를 충족하도록 관리함.
| 활동 | 설명 |
|---|---|
| 모니터링 | CPU, 메모리, 디스크, 네트워크 사용률 추적 |
| 트렌드 분석 | 사용량 증가 추세 파악 |
| 용량 계획 | 향후 필요 용량 예측, 증설 계획 |
| 성능 튜닝 | 병목 식별, 최적화 |
🏢 공공 SI에서의 ITIL 적용
적용 시점
SI 프로젝트가 끝나면 운영 단계로 넘어감. 이때 ITIL 기반 운영 체계가 적용됨.
공공 운영에서 자주 쓰이는 프랙티스
| 프랙티스 | 공공 적용 |
|---|---|
| 인시던트 관리 | 장애 대응 체계, 심각도 분류, 에스컬레이션 |
| 문제 관리 | 반복 장애 분석, RCA, 재발 방지 |
| 변경 관리 | 모든 변경 기록, CAB 승인, 롤백 계획 |
| 서비스 수준 관리 | SLA 정의, 월간 보고, 가용성 측정 |
| 구성 관리 | 자산 대장, CMDB, 구성 변경 추적 |
운영 보고서
| 보고서 | 주기 | 내용 |
|---|---|---|
| 일일 점검 | 매일 | 시스템 상태, 이벤트, 백업 결과 |
| 주간 보고 | 매주 | 인시던트 현황, 변경 이력, 이슈 |
| 월간 보고 | 매월 | SLA 달성률, 성능 추이, 용량 현황 |
| 분기 보고 | 분기 | 운영 종합, 개선 사항, 차기 계획 |
RFP/제안서에서의 ITIL
RFP나 제안서에서 ITIL 관련 문구가 나오는 패턴:
| 맥락 | 예시 문구 |
|---|---|
| 운영 체계 | "ITIL 기반 IT 서비스 관리 체계 수립" |
| 장애 관리 | "ITIL 인시던트/문제 관리 프로세스 적용" |
| 변경 관리 | "ITIL 변경 관리 절차에 따른 체계적 변경 통제" |
| SLA | "ITIL 서비스 수준 관리 기반 SLA 관리" |
🆚 ITIL v3 vs ITIL 4
| 구분 | ITIL v3 (2011) | ITIL 4 (2019) |
|---|---|---|
| 구조 | 5단계 라이프사이클 | 서비스 가치 체계 (SVS) |
| 단계 | 전략→설계→전환→운영→개선 | 가치 사슬 6개 활동 |
| 단위 | 26개 프로세스 | 34개 프랙티스 |
| 접근 | 프로세스 중심 | 가치/원칙 중심 |
| Agile/DevOps | 제한적 | 적극 포용 |
| 유연성 | 순차적 라이프사이클 | 필요에 따라 활동 조합 |
ITIL v3 서비스 라이프사이클 (참고):
💡 공공 SI에서는 아직 ITIL v3 용어(프로세스, 라이프사이클)를 쓰는 경우가 많음. v4의 개념은 알되, v3 용어도 병행해서 이해하면 좋음.
📋 요약
핵심 구조
| 구분 | 내용 |
|---|---|
| SVS | 지도 원칙 + 거버넌스 + 가치 사슬 + 프랙티스 + 지속적 개선 |
| 7대 원칙 | 가치 집중, 현재에서 시작, 반복, 협업, 총체적, 단순, 자동화 |
| 6개 가치 사슬 활동 | Plan, Improve, Engage, Design/Transition, Obtain/Build, Deliver/Support |
| 34개 프랙티스 | 일반 관리(14) + 서비스 관리(17) + 기술 관리(3) |
인프라 엔지니어가 꼭 알아야 할 프랙티스
| 프랙티스 | 핵심 |
|---|---|
| 인시던트 관리 | 빠른 복구가 목표, 원인 분석은 문제 관리에서 |
| 문제 관리 | 근본 원인 분석(RCA), 재발 방지 |
| 변경 관리 | 모든 변경은 기록/승인, 롤백 계획 필수 |
| 서비스 수준 관리 | SLA 정의, 측정, 보고 |
| 구성 관리 | CMDB로 CI와 관계 추적 |
🔗 관련 문서
- PMBOK Guide Overview — 프로젝트 관리 프레임워크
- 공공 SI 인프라 구축 라이프사이클 — 구축 단계별 절차
- 인프라 제안서 작성 가이드 — 제안서 인프라 파트 작성법
- Cisco PPDIOO — 인프라 설계/구축/운영 방법론