Skip to main content

AI 인프라 Overview

인프라 엔지니어 관점에서 AI 워크로드를 어떻게 지원하는가


1. GPU vs CPU

1.1 왜 GPU인가

CPUGPU
코어 수8~128 (강한 코어)수천~수만 (약한 코어)
적합한 작업복잡한 순차 로직대량 병렬 행렬 연산
AI에서의 역할데이터 전처리, 오케스트레이션학습과 추론

Neural Network의 핵심 연산 = 행렬 곱셈 → 대량 병렬 처리에 적합 → GPU가 CPU 대비 수십~수백 배 빠름

1.2 NVIDIA 생태계

컴포넌트역할
CUDAGPU 프로그래밍 플랫폼 (사실상 표준)
cuDNN딥러닝 연산 최적화 라이브러리
TensorRT추론 최적화 엔진 (모델 컴파일)
NCCL멀티 GPU 통신 라이브러리
NVLink/NVSwitchGPU 간 고속 인터커넥트

1.3 GPU 세대별 비교

GPU세대FP16 TFLOPS메모리용도
A100Ampere (2020)31240/80GB HBM2e학습+추론 (현재 워크호스)
H100Hopper (2022)99080GB HBM3✅ 대규모 학습
H200Hopper (2024)990141GB HBM3e대형 모델 추론 (메모리↑)
B200Blackwell (2024)2,250192GB HBM3e차세대
RTX 4090Ada (2022)16524GB GDDR6X개인/소규모 학습, QLoRA

2. 학습 vs 추론 인프라

학습 (Training)추론 (Inference)
GPU 수수십~수천 대1~수 대
병목컴퓨팅 (TFLOPS)메모리 (KV Cache)
시간수일~수주밀리초~초
최적화데이터 병렬, 모델 병렬양자화, 배칭, 캐싱
비용💰💰💰💰

3. 분산 학습

단일 GPU로 학습할 수 없는 대형 모델을 여러 GPU에 분산하여 학습.

전략분산 대상설명
Data Parallel데이터같은 모델을 여러 GPU에 복사, 데이터를 나눠 학습, 그래디언트 동기화
Model Parallel모델모델의 레이어를 GPU에 나눠 배치
Pipeline Parallel모델 (단계별)레이어 그룹을 파이프라인 스테이지로 분할
Tensor Parallel모델 (연산별)하나의 레이어 내부 행렬을 분할

실전에서는 3D Parallelism (Data + Pipeline + Tensor)을 조합하여 사용.


4. 추론 최적화

기법설명효과
양자화 (Quantization)FP16 → INT8/INT4로 정밀도 낮춤메모리 2~4배 절약
GPTQPost-training 양자화4-bit, 성능 저하 최소
AWQ활성화 기반 양자화GPTQ보다 약간 우수
KV Cache 최적화PagedAttention으로 메모리 효율화처리량 2~4배
Continuous Batching요청을 동적으로 배치 처리처리량 향상
Speculative Decoding작은 모델이 초안, 큰 모델이 검증속도 2~3배

vLLM — 추론 서빙 표준

기능설명
PagedAttentionKV Cache를 페이지 단위로 관리 → 메모리 효율
Continuous Batching요청을 동적으로 묶어 처리
OpenAI 호환 API코드 수정 없이 OpenAI API 대체 가능
다양한 모델Llama, Mistral, Qwen 등 대부분 지원

5. 클라우드 GPU

클라우드인스턴스GPU용도
AWSp5.48xlargeH100 ×8대규모 학습
AWSg5.xlargeA10G ×1추론
AzureND H100 v5H100 ×8학습
GCPa3-highgpu-8gH100 ×8학습
Lambda Labs다양A100/H100✅ AI 전문, 저렴
RunPod다양소비자~데이터센터✅ 유연, 시간 과금

6. GPU 가상화

기술설명Proxmox 관련
PCI PassthroughGPU를 VM에 직접 할당 (1:1)✅ 지원 (IOMMU 필요)
vGPU (NVIDIA GRID)GPU를 분할하여 여러 VM에 공유라이선스 필요
MIG (Multi-Instance GPU)A100/H100을 물리적으로 분할✅ 하드웨어 격리
SR-IOVNIC처럼 GPU를 가상 기능으로 분할제한적 지원

💡 인프라 엔지니어 관점에서 GPU 가상화는 점점 중요해지고 있음. AI 워크로드가 VM/컨테이너 환경에서 실행되어야 하므로, PCI Passthrough와 MIG 설정 능력이 필요함. Proxmox #2에서 다룬 IOMMU/Passthrough가 여기서 직접 연결됨.


7. 온프레미스 AI 서버

구성 요소고려사항
GPU 서버GPU 수, 메모리, NVLink 유무
네트워크GPU 간 통신: InfiniBand/RoCE (100~400Gbps)
스토리지학습 데이터 로딩 속도: NVMe, 분산 파일시스템
전력/냉각H100 1대 = 700W. 8대 = 5.6kW + 냉각
관리Kubernetes + GPU Operator, Slurm

다음 글

MLOps 기초


📝 참고 자료