ITIL Overview

IT 서비스 관리(ITSM) 프레임워크, 서비스 가치 체계, 핵심 프랙티스

🎯 ITIL이란?

ITIL (Information Technology Infrastructure Library): IT 서비스 관리(ITSM)를 위한 베스트 프랙티스 프레임워크.

항목	설명
발행	Axelos (현 PeopleCert), 영국 정부에서 시작
현재 버전	ITIL 4 (2019)
성격	IT 서비스를 어떻게 관리/운영할 것인가
자격증	ITIL Foundation → Managing Professional → Strategic Leader
적용 범위	IT 서비스를 제공하는 모든 조직

ITIL의 역사

버전	연도	특징
ITIL v1	1989	영국 정부 IT 운영 가이드 (40권+)
ITIL v2	2000	서비스 지원 + 서비스 제공으로 정리
ITIL v3	2007	서비스 라이프사이클 5단계
ITIL 4	2019	가치 체계 중심, Agile/DevOps 포용

왜 알아야 하나?

이유	설명
운영 이관	SI 구축 후 운영 단계에서 ITIL 기반 체계를 요구하는 경우
SLA 관리	서비스 수준 관리의 표준 프레임워크
PPDIOO와 연결	PPDIOO의 Operate/Optimize 단계를 깊게 다루는 것이 ITIL
공통 언어	인시던트, 문제, 변경 같은 운영 용어의 출처
제안서	"ITIL 기반 운영 체계 수립" 문구가 제안서/RFP에 등장

다른 프레임워크와의 관계

프레임워크	범위	초점
PMBOK	프로젝트 (한시적)	관리
SI 라이프사이클	구축 프로젝트	절차/산출물
PPDIOO	설계~운영	기술 수명주기
ITIL	운영 (지속적)	서비스 관리

📊 핵심 개념

서비스 (Service)

ITIL에서 가장 중요한 개념. 모든 것을 "서비스"로 봄.

용어	설명
서비스	고객이 특정 비용/리스크 없이 원하는 결과를 얻도록 가치를 제공하는 수단
서비스 제공자	서비스를 만들고 운영하는 조직 (IT 부서, MSP 등)
서비스 소비자	서비스를 사용하는 사람/조직 (사용자, 고객)

인프라 관점 예시:

서비스	제공자	소비자
이메일 시스템	IT 인프라팀	전 직원
ERP 시스템	SI 운영팀	업무 담당자
클라우드 IaaS	CSP (AWS, NCP 등)	개발팀

가치 (Value)

ITIL 4의 핵심 철학: IT 활동의 목적은 가치 창출.

개념	질문	인프라 예시
유용성	"필요한 기능이 있나?"	DB 서비스가 CRUD를 지원하는가
보증	"안정적으로 쓸 수 있나?"	가용성 99.9%, 응답시간 3초 이내

🏗️ ITIL 4 서비스 가치 체계 (SVS)

ITIL 4의 최상위 구조. 모든 구성 요소가 가치 창출을 향함.

구성 요소	설명
지도 원칙	의사결정의 가이드라인 (7개)
거버넌스	조직의 방향 설정, 감독
서비스 가치 사슬	가치 창출의 운영 모델 (6개 활동)
프랙티스	조직의 자원을 활용한 작업 수행 방법 (34개)
지속적 개선	모든 수준에서의 지속적 개선

🧭 7대 지도 원칙 (Guiding Principles)

모든 ITIL 활동에 적용되는 의사결정 가이드라인.

#	원칙	설명	인프라 예시
1	가치에 집중	모든 활동이 가치 창출에 기여해야	모니터링 대시보드가 실제 의사결정에 쓰이는가?
2	현재에서 시작	기존 것을 버리지 말고 활용	AS-IS 장비 중 재활용 가능한 것은?
3	피드백과 함께 반복	한 번에 다 하지 말고 단계적으로	전체 이관 대신 서비스별 순차 전환
4	협업하고 가시성 확보	사일로를 깨고 투명하게	인프라/개발/보안 팀 간 장애 정보 공유
5	총체적으로 사고	부분이 아닌 전체를 보기	네트워크만 빨라도 DB가 느리면 소용없음
6	단순하고 실용적으로	복잡한 프로세스는 지켜지지 않음	변경 관리 절차가 실제로 실행 가능한가?
7	최적화하고 자동화	수작업을 줄이고 자동화	반복 점검을 스크립트/자동화로 전환

💡 7번 원칙이 DevOps/자동화와 연결되는 지점. ITIL 4에서 Agile/DevOps를 포용하려는 의도가 반영됨.

🔗 서비스 가치 사슬 (Service Value Chain)

가치를 만들어내는 6개 활동. 순서가 정해진 게 아니라 필요에 따라 조합함.

활동	설명	인프라 예시
Plan	방향 설정, 포트폴리오 관리	연간 인프라 투자 계획, 기술 로드맵
Improve	지속적 개선	성능 튜닝, 자동화 도입
Engage	이해관계자와 소통	사용자 요구사항 수집, SLA 협의
Design & Transition	서비스 설계, 변경 관리	신규 시스템 설계, 운영 이관
Obtain/Build	서비스 구성 요소 확보	장비 조달, 시스템 구축
Deliver & Support	서비스 제공, 운영 지원	일상 운영, 장애 대응, 백업

🛠️ 34개 프랙티스 (Practices)

ITIL v3에서는 "프로세스"라고 불렀던 것. ITIL 4에서는 프랙티스로 확장 (프로세스 + 사람 + 기술 + 정보).

3개 카테고리

카테고리	수	설명
일반 관리	14	조직 전반에 적용
서비스 관리	17	IT 서비스에 특화
기술 관리	3	기술 인프라 관련

핵심 프랙티스 (인프라 엔지니어 관점)

34개 중 실무에서 자주 만나는 핵심 프랙티스를 중심으로 정리.

🔥 인시던트 관리 (Incident Management)

인시던트: 서비스의 정상적인 운영을 중단시키거나 품질을 저하시키는 계획되지 않은 사건.

목표: 가능한 빨리 정상 서비스로 복구.

심각도/우선순위 매트릭스:

	영향도 높음	영향도 중간	영향도 낮음
긴급도 높음	P1 (Critical)	P2 (High)	P3 (Medium)
긴급도 중간	P2 (High)	P3 (Medium)	P4 (Low)
긴급도 낮음	P3 (Medium)	P4 (Low)	P4 (Low)

에스컬레이션:

유형	설명	예시
기능적 에스컬레이션	전문 팀으로 이관	L1 → L2 → L3
계층적 에스컬레이션	상위 관리자에게 보고	담당 → 팀장 → 부서장

인프라 인시던트 예시:

인시던트	심각도	대응
서버 다운 (서비스 중단)	P1	즉시 대응, HA 절체 확인
디스크 사용률 95%	P2	긴급 정리 또는 증설
백업 실패	P3	원인 확인, 재수행
모니터링 알림 오탐	P4	임계치 조정

💡 인시던트 관리의 핵심은 "원인 분석"이 아니라 "빠른 복구"임. 원인 분석은 문제 관리에서 함.

🔍 문제 관리 (Problem Management)

문제 (Problem): 하나 이상의 인시던트의 근본 원인 또는 잠재적 원인.

목표: 인시던트의 근본 원인을 찾아 재발을 방지.

인시던트 vs 문제:

구분	인시던트	문제
성격	증상	원인
목표	빠른 복구	재발 방지
시간	즉시 대응	시간을 두고 분석
예시	"서버가 죽었다"	"왜 서버가 죽었나?"

근본 원인 분석 (RCA) 기법:

기법	설명
5 Whys	"왜?"를 5번 반복하여 근본 원인 추적
피시본 다이어그램	원인을 카테고리별로 분류 (HW, SW, Network, 인적 오류)
타임라인 분석	장애 발생 전후 이벤트를 시간순 정리

5 Whys 예시:

인시던트: WAS 서버 응답 지연

1. 왜? → WAS 서버 CPU 100%
2. 왜? → 특정 쿼리가 무한 루프
3. 왜? → 인덱스 없이 Full Scan
4. 왜? → 테이블 변경 후 인덱스 미적용
5. 왜? → 변경 시 DBA 리뷰 절차 없음

→ 근본 원인: DB 변경 관리 프로세스 부재
→ 대응: DB 변경 시 DBA 리뷰 필수화

🔄 변경 관리 (Change Enablement)

변경 (Change): IT 서비스에 영향을 줄 수 있는 모든 추가, 수정, 제거.

목표: 변경으로 인한 장애를 최소화하면서 신속하게 변경 수행.

💡 ITIL 4에서는 "Change Management"가 아니라 **"Change Enablement"**로 이름이 바뀜. 변경을 통제하는 것이 아니라 가능하게 하는 것이 목적.

변경 유형:

유형	승인	리스크	예시
표준 변경	사전 승인	낮음	사용자 계정 생성, 패스워드 리셋
일반 변경	CAB 승인	중간	방화벽 룰 추가, 서버 증설, 패치
긴급 변경	긴급 CAB	높음	보안 취약점 긴급 패치, 장애 대응

CAB (Change Advisory Board):

역할	설명
구성	PM, 인프라, 개발, 보안, 운영 담당자
목적	변경의 리스크/영향 평가, 승인/반려
회의	정기 (주 1회) + 긴급 시 수시

PIR (Post-Implementation Review):

변경 후 검토. "변경이 성공했는가? 문제는 없는가?"

점검	내용
목표 달성	변경 목적이 달성되었는가
부작용	예상치 못한 영향은 없는가
프로세스	변경 절차가 적절했는가
교훈	개선할 점은 무엇인가

📊 서비스 수준 관리 (Service Level Management)

SLA (Service Level Agreement): 서비스 제공자와 고객 간에 합의한 서비스 수준.

목표: 서비스 품질 목표를 설정하고, 측정하고, 관리.

SLA 구조:

항목	내용	예시
가용성	서비스 가동 시간 비율	99.9% (월 43분 이하 중단)
응답 시간	서비스 요청 후 응답까지	3초 이내 (95 percentile)
장애 대응	장애 인지 후 대응 시작까지	P1: 15분, P2: 30분
복구 시간	장애 발생 후 복구까지	P1: 1시간, P2: 4시간
보고	운영 보고 주기	월간 운영 보고서

SLA 관련 용어:

용어	설명
SLA	Service Level Agreement — 고객과의 합의 (외부)
OLA	Operational Level Agreement — 내부 조직 간 합의
UC	Underpinning Contract — 외부 벤더와의 계약

SLA 위반 시:

단계	대응
경고	임계치 접근 시 사전 알림
위반	원인 분석, 재발 방지 계획
반복 위반	서비스 개선 계획 (SIP), 계약 조정

📦 서비스 구성 관리 (Service Configuration Management)

CI (Configuration Item): 관리 대상이 되는 모든 구성 요소.

CMDB (Configuration Management Database): CI와 그 관계를 저장하는 데이터베이스.

CI 유형	예시
HW	서버, 스위치, 스토리지, 방화벽
SW	OS, 미들웨어, DB, 애플리케이션
문서	설계서, 운영 매뉴얼, SOP
서비스	이메일, ERP, 웹 서비스

CMDB가 중요한 이유:

장애 시: "이 서버가 죽으면 어떤 서비스가 영향받지?" → CMDB에서 관계 추적
변경 시: "이 스위치를 바꾸면 어떤 서버가 연결되어 있지?" → 영향 범위 파악
용량 관리: 전체 자산 현황 파악

CMDB 도구:

도구	특징
ServiceNow	엔터프라이즈 ITSM 플랫폼
NetBox	오픈소스 IPAM + DCIM
iTop	오픈소스 CMDB/ITSM
Jira Service Management	Atlassian 생태계

🔁 지속적 개선 (Continual Improvement)

모든 프랙티스에 적용되는 상위 개념임. PPDIOO의 Optimize와 직접 연결됨.

개선 레지스터 (Improvement Register):

모든 개선 아이디어를 기록하고 추적하는 목록.

ID	개선 항목	출처	우선순위	상태	담당
1	백업 자동화	인시던트 분석	높음	진행 중	인프라팀
2	모니터링 임계치 조정	오탐 과다	중간	대기	운영팀
3	패치 관리 자동화	보안 감사	높음	계획	보안팀

🏗️ 추가 주요 프랙티스

릴리스 관리 (Release Management)

새로운 서비스나 변경된 서비스를 운영 환경에 배포하는 것을 관리함.

항목	설명
릴리스 계획	배포 일정, 순서, 롤백 계획
빌드/테스트	스테이징 환경에서 검증
배포	운영 환경에 적용
사후 검증	배포 후 정상 동작 확인

IT 자산 관리 (IT Asset Management)

IT 자산의 전체 수명주기를 관리함.

단계	활동
조달	구매/임대, 라이선스 확보
배치	설치, 구성, 사용자 할당
운영	사용 추적, 유지보수
폐기	EOL 장비 처분, 데이터 삭제

가용성 관리 (Availability Management)

SLA에 정의된 가용성 수준을 달성하고 유지함.

지표	계산	설명
가용성(%)	(합의시간 - 중단시간) / 합의시간 × 100	서비스 가동률
MTBF	총 가동시간 / 장애 횟수	평균 장애 간격
MTTR	총 중단시간 / 장애 횟수	평균 복구 시간
MTBSI	MTBF + MTTR	평균 장애 간 시간

예시:
  월간 서비스 시간: 720시간
  중단 시간: 43분 (0.72시간)
  
  가용성 = (720 - 0.72) / 720 × 100 = 99.9%

용량 및 성능 관리 (Capacity and Performance Management)

현재와 미래의 용량/성능 요구를 충족하도록 관리함.

활동	설명
모니터링	CPU, 메모리, 디스크, 네트워크 사용률 추적
트렌드 분석	사용량 증가 추세 파악
용량 계획	향후 필요 용량 예측, 증설 계획
성능 튜닝	병목 식별, 최적화

🏢 공공 SI에서의 ITIL 적용

적용 시점

SI 프로젝트가 끝나면 운영 단계로 넘어감. 이때 ITIL 기반 운영 체계가 적용됨.

공공 운영에서 자주 쓰이는 프랙티스

프랙티스	공공 적용
인시던트 관리	장애 대응 체계, 심각도 분류, 에스컬레이션
문제 관리	반복 장애 분석, RCA, 재발 방지
변경 관리	모든 변경 기록, CAB 승인, 롤백 계획
서비스 수준 관리	SLA 정의, 월간 보고, 가용성 측정
구성 관리	자산 대장, CMDB, 구성 변경 추적

운영 보고서

보고서	주기	내용
일일 점검	매일	시스템 상태, 이벤트, 백업 결과
주간 보고	매주	인시던트 현황, 변경 이력, 이슈
월간 보고	매월	SLA 달성률, 성능 추이, 용량 현황
분기 보고	분기	운영 종합, 개선 사항, 차기 계획

RFP/제안서에서의 ITIL

RFP나 제안서에서 ITIL 관련 문구가 나오는 패턴:

맥락	예시 문구
운영 체계	"ITIL 기반 IT 서비스 관리 체계 수립"
장애 관리	"ITIL 인시던트/문제 관리 프로세스 적용"
변경 관리	"ITIL 변경 관리 절차에 따른 체계적 변경 통제"
SLA	"ITIL 서비스 수준 관리 기반 SLA 관리"

🆚 ITIL v3 vs ITIL 4

구분	ITIL v3 (2011)	ITIL 4 (2019)
구조	5단계 라이프사이클	서비스 가치 체계 (SVS)
단계	전략→설계→전환→운영→개선	가치 사슬 6개 활동
단위	26개 프로세스	34개 프랙티스
접근	프로세스 중심	가치/원칙 중심
Agile/DevOps	제한적	적극 포용
유연성	순차적 라이프사이클	필요에 따라 활동 조합

ITIL v3 서비스 라이프사이클 (참고):

💡 공공 SI에서는 아직 ITIL v3 용어(프로세스, 라이프사이클)를 쓰는 경우가 많음. v4의 개념은 알되, v3 용어도 병행해서 이해하면 좋음.

📋 요약

핵심 구조

구분	내용
SVS	지도 원칙 + 거버넌스 + 가치 사슬 + 프랙티스 + 지속적 개선
7대 원칙	가치 집중, 현재에서 시작, 반복, 협업, 총체적, 단순, 자동화
6개 가치 사슬 활동	Plan, Improve, Engage, Design/Transition, Obtain/Build, Deliver/Support
34개 프랙티스	일반 관리(14) + 서비스 관리(17) + 기술 관리(3)

인프라 엔지니어가 꼭 알아야 할 프랙티스

프랙티스	핵심
인시던트 관리	빠른 복구가 목표, 원인 분석은 문제 관리에서
문제 관리	근본 원인 분석(RCA), 재발 방지
변경 관리	모든 변경은 기록/승인, 롤백 계획 필수
서비스 수준 관리	SLA 정의, 측정, 보고
구성 관리	CMDB로 CI와 관계 추적

🔗 관련 문서

PMBOK Guide Overview — 프로젝트 관리 프레임워크
공공 SI 인프라 구축 라이프사이클 — 구축 단계별 절차
인프라 제안서 작성 가이드 — 제안서 인프라 파트 작성법
Cisco PPDIOO — 인프라 설계/구축/운영 방법론

🎯 ITIL이란?​

ITIL의 역사​

왜 알아야 하나?​

다른 프레임워크와의 관계​

📊 핵심 개념​

서비스 (Service)​

가치 (Value)​

🏗️ ITIL 4 서비스 가치 체계 (SVS)​

🧭 7대 지도 원칙 (Guiding Principles)​

🔗 서비스 가치 사슬 (Service Value Chain)​

🛠️ 34개 프랙티스 (Practices)​

3개 카테고리​

핵심 프랙티스 (인프라 엔지니어 관점)​

🔥 인시던트 관리 (Incident Management)​

🔍 문제 관리 (Problem Management)​

🔄 변경 관리 (Change Enablement)​

📊 서비스 수준 관리 (Service Level Management)​

📦 서비스 구성 관리 (Service Configuration Management)​

🔁 지속적 개선 (Continual Improvement)​

🏗️ 추가 주요 프랙티스​

릴리스 관리 (Release Management)​

IT 자산 관리 (IT Asset Management)​

가용성 관리 (Availability Management)​

용량 및 성능 관리 (Capacity and Performance Management)​

🏢 공공 SI에서의 ITIL 적용​

적용 시점​

공공 운영에서 자주 쓰이는 프랙티스​

운영 보고서​

RFP/제안서에서의 ITIL​

🆚 ITIL v3 vs ITIL 4​

📋 요약​

핵심 구조​

인프라 엔지니어가 꼭 알아야 할 프랙티스​

🔗 관련 문서​

🔗 참고 자료​