OO기관 통합AI데이터센터 GPU 서버 구축사업 — 학습 자료
제안요청서 분석 기반 핵심 기술 영역 정리
1. 사업 개요 요약
1.1 사업 핵심
| 항목 | 내용 |
|---|---|
| 사업명 | OO기관 통합AI데이터센터 실증목적 GPU 서버 구축사업 |
| 목적 | 국방 생성형 AI(GeDAI) 확대를 위한 GPU 인프라 증설 |
| 예산 | 약 216억원 (리스) |
| 기간 | 계약 후 210일 |
| 평가 | 기술평가 90% + 가격평가 10% (차등점수제 3점) |
1.2 도입 물량
| 품목 | 수량 | 핵심 스펙 |
|---|---|---|
| GPU 서버 (B300 288GB) | 10대 | NVIDIA DGX B300 SXM 8-GPU, 총 80 GPU |
| 클라우드 관리서버 | - | Master Node |
| (서비스) SPINE/LEAF 스위치 | - | 200G/400G |
| (관리) OOB 스위치 | - | |
| (컴퓨팅) SPINE/LEAF 스위치 | - | 800G (GPU Direct RDMA) |
| 고속 NAS 스토리지 | - | 200~400G 연결 |
| GPU 서버 가상화 SW (PaaS) | 10EA | 컨테이너 기반, Istio, Knative 등 |
| 관제 및 보안 SW | - | CC인증 필요 |
| 표준 Rack 및 기반환경 | - | 컨테인먼트, 분전반 등 |
1.3 네트워크 구성
1.4 성능 검증 요구사항 (핵심)
제안요청서에서 명시:
"GPU의 성능을 100% 활용할 수 있음을 증명하기 위하여 모델의 학습 및 추론 성능 수치를 제시하고 시연해야 함"
- 시험평가용 AI 모델은 수행사가 반입
- 성능측정 도구, 방법을 제시해야 함
- GPU 사용현황 확인 필수
→ MLPerf가 이 성능 검증의 표준 도구로 활용될 수 있음
2. NVIDIA DGX B300 (Blackwell Ultra) 아키텍처
2.1 B300 GPU 스펙
| 항목 | B300 SXM | 비교: H100 SXM |
|---|---|---|
| 아키텍처 | Blackwell Ultra | Hopper |
| HBM 메모리 | 288GB HBM3e | 80GB HBM3 |
| 메모리 대역폭 | 8TB/s | 3.35TB/s |
| FP4 Dense | 14 PFLOPS (per GPU) | — |
| 시스템 추론 성능 | 192 PFLOPS (8-GPU) | — |
| TDP | 1,400W (per GPU) | 700W |
| 인터커넥트 | NVLink 6 | NVLink 4 |
⚠️ B300은 B200의 메모리 확장 버전(Blackwell Ultra). B200이 192GB HBM3e인 반면, B300은 288GB HBM3e로 대형 모델(70B+)의 추론에서 더 많은 KV Cache를 담을 수 있음.
2.2 DGX B300 시스템 구성
| 컴포넌트 | 스펙 |
|---|---|
| GPU | B300 SXM ×8 (총 2.3TB HBM3e) |
| CPU | 2× Intel Xeon Platinum 6776P (x86, 96코어) |
| 시스템 메모리 | 2,048GB DDR5 6400MT/s |
| GPU 인터커넥트 | NVLink 6 (GPU 간 1.8TB/s 양방향) |
| NVSwitch | NVSwitch 4세대 (8-GPU 풀 메시) |
| 네트워크 | ConnectX-8 VPI ×8 (800Gbps/포트) |
| 서비스 NIC | 200Gbps ×2 (듀얼 포트) |
| DPU | BlueField-3 DPU ×2 (스토리지 가속, 인프라 관리, 보안 격리) |
| OS 디스크 | M.2 960GB SSD ×2 |
| 데이터 디스크 | NVMe 3.84TB SSD ×4 |
| PSU | 3200W+ Titanium ×6+6 (N+N) |
| 폼 팩터 | 10U |
2.3 NVLink & NVSwitch — GPU 간 인터커넥트
| 세대 | 대역폭 (양방향) | 연결 | 플랫폼 |
|---|---|---|---|
| NVLink 3 | 600GB/s | P2P | A100 |
| NVLink 4 | 900GB/s | NVSwitch 3세대 | H100/H200 |
| NVLink 5 | 1.8TB/s | NVSwitch 4세대 | B200 |
| NVLink 6 | 1.8TB/s+ | NVSwitch 4세대 | B300 |
NVSwitch의 역할:
- 8개 GPU를 풀 메시(All-to-All)로 연결
- 어떤 GPU든 다른 GPU의 메모리에 NVLink 최대 속도로 접근 가능
- 대형 모델의 Tensor Parallelism에 필수
2.4 DGX 간 통신 — 800G 네트워크
DGX 내부: NVLink (1.8TB/s) DGX 간: 800Gbps Ethernet/InfiniBand (ConnectX-8)
이 사업에서는 800Gbps Ethernet (VPI 모드)으로 구성. 10대 DGX 간의 대규모 추론/학습을 위한 고속 통신.
3. GPU 클러스터 네트워킹
3.1 GPU Direct RDMA
GPU 메모리에서 CPU를 거치지 않고 네트워크를 통해 직접 데이터 전송.
| 방식 | 경로 | 지연 |
|---|---|---|
| 기존 | GPU → CPU → 메모리 → NIC → 네트워크 | 높음 |
| GPU Direct RDMA | GPU → NIC → 네트워크 (CPU 우회) | 낮음 |
3.2 NVIDIA Reference Architecture
제안요청서에서 명시: "GPU Direct RDMA 방식의 NVIDIA Reference Architecture 기반의 제품 (검수시 증빙서류 제출)"
이는 NVIDIA가 공식적으로 검증한 네트워크 토폴로지와 구성을 따라야 한다는 의미.
3.3 Spine-Leaf 토폴로지
| 구간 | 속도 | 프로토콜 |
|---|---|---|
| GPU서버 ↔ 컴퓨팅 LEAF | 800Gbps | Ethernet (VPI) |
| 컴퓨팅 LEAF ↔ SPINE | 800Gbps | Ethernet |
| GPU서버 ↔ 서비스 LEAF | 200Gbps | Ethernet |
| 서비스 LEAF ↔ SPINE | 400Gbps | Ethernet |
| NAS ↔ 서비스 LEAF | 200~400Gbps | Ethernet |
3.4 InfiniBand vs Ethernet (VPI 모드)
ConnectX-8 VPI는 InfiniBand와 Ethernet 모두 지원하는 어댑터.
| InfiniBand | Ethernet (RoCEv2) | |
|---|---|---|
| 지연 | ✅ 최저 (~1μs) | 낮음 (~2μs) |
| RDMA | ✅ 네이티브 | RoCEv2로 지원 |
| 관리 | 전용 SM(Subnet Manager) 필요 | 기존 네트워크 팀이 관리 가능 |
| 비용 | 높음 | ✅ 상대적 저렴 |
| 이 사업 | 800Gbps IB 지원 | ✅ 800Gbps Ethernet으로 구성 예상 |
💡 이 사업은 "800Gbps InfiniBand / Ethernet 지원 (VPI 모드)"로 명시. 실제 구성은 기관의 기존 네트워크 환경에 따라 결정될 것. 기존에 Ethernet 기반이면 RoCEv2, IB 인프라가 있으면 InfiniBand.
4. MLPerf — 성능 검증 도구
4.1 MLPerf가 이 사업에서 중요한 이유
제안요청서 요구:
- "GPU의 성능을 100% 활용할 수 있음을 증명"
- "모델의 학습 및 추론 성능 수치를 제시하고 시연"
- "성능측정 도구, 방법 등" 제시
MLPerf는 이 요구를 충족하는 업계 표준 벤치마크.
4.2 MLPerf 벤치마크 종류
| 벤치마크 | 측정 대상 | 이 사업 관련도 |
|---|---|---|
| MLPerf Inference | 추론 성능 (토큰/초, 지연) | ✅ 핵심 |
| MLPerf Training | 학습 시간 (목표 정확도까지) | ✅ 관련 |
| MLPerf Storage | 스토리지 I/O 성능 | 🔸 간접 |
4.3 MLPerf Inference — 이 사업의 핵심 벤치마크
시나리오
| 시나리오 | 패턴 | 메트릭 | 의미 |
|---|---|---|---|
| Offline | 전체 데이터를 배치 처리 | Tokens/sec (처리량) | 최대 처리량 측정 |
| Server | 실시간 요청 (비균일 도착) | 지연 제약 하 처리량 | ✅ 실서비스 시나리오 |
Server 시나리오가 실제 GeDAI 서비스 환경에 가장 가까움.
최신 벤치마크 모델 (v5.1, 2025.09)
| 모델 | 태스크 | 관련도 |
|---|---|---|
| Llama 2-70B | 대규모 LLM 추론 | ✅ GeDAI 유사 |
| DeepSeek R1 | 추론(reasoning) 모델 | ✅ 신규 추가 |
| Llama 3.1 8B | 소형 LLM | 🔸 |
| Whisper Large V3 | 음성→텍스트 | 🔸 |
| Stable Diffusion XL | 이미지 생성 | ❌ |
| ResNet-50 | 이미지 분류 | ❌ |
| BERT | 자연어 이해 | ❌ |
이 사업에서의 활용 전략
제안서에 넣을 수 있는 포인트:
- MLPerf Inference Datacenter 벤치마크를 성능 검증 기준으로 제시
- Llama 2-70B (또는 유사 규모 모델)로 Offline + Server 시나리오 테스트
- NVIDIA의 공식 MLPerf 제출 결과를 기준으로 성능 달성률 비교
- 추가로 GeDAI 모델을 직접 탑재하여 실서비스 환경 성능 시연
4.4 MLPerf Inference 실행 환경
# MLPerf Inference 레포지토리
git clone https://github.com/mlcommons/inference.git
# NVIDIA 제출 구현 (최적화됨)
# https://github.com/mlcommons/inference_results_v5.1
# NVIDIA 폴더에서 B200/B300용 결과와 코드 확인 가능
실제 실행에는 NVIDIA TensorRT-LLM이 추론 엔진으로 사용됨.
4.5 MLPerf 결과 읽는 법
MLCommons 결과 대시보드: https://mlcommons.org/benchmarks/inference-datacenter/
| 필드 | 의미 |
|---|---|
| System | 시스템 구성 (예: "8x NVIDIA B200 SXM") |
| Accelerator | GPU 종류와 수량 |
| Scenario | Offline 또는 Server |
| Result | Tokens/sec (Offline) 또는 지연 제약 처리량 (Server) |
| Division | Closed (동일 모델) 또는 Open (자유) |
| Category | Available / Preview / RDI |
5. 컨테이너 기반 GPU PaaS 플랫폼
5.1 제안요청서의 PaaS 요구사항 핵심
제안요청서 ECR-09에서 요구하는 PaaS 플랫폼의 핵심 기능:
| # | 요구사항 | K8s 대응 | 비고 |
|---|---|---|---|
| 1 | Containerd 기반 컨테이너 관리 | ✅ K8s 기본 | |
| 2 | HW 종속 없는 엔터프라이즈 PaaS | RHOCP(OpenShift) 또는 Rancher | |
| 5 | Operator 배포 자동화 | K8s Operator 패턴 | |
| 7 | 엔터프라이즈 Linux OS 포함 | RHEL (OpenShift), SLES (Rancher) | 커뮤니티 OS 배제 |
| 9 | 관리 시스템 이중화 | Control Plane HA | |
| 11 | Auto Scale out/in | HPA, Cluster Autoscaler | |
| 14 | 멀티 테넌시 | Namespace + RBAC | |
| 19 | Istio 기반 서비스 메시 | Istio Service Mesh | ✅ 명시적 요구 |
| 20 | Knative 서버리스 | Knative Serving/Eventing | ✅ 명시적 요구 |
| 21 | AI/ML GPU 연계 | NVIDIA GPU Operator, MIG | |
| 22 | Immutable Host OS | CoreOS (OpenShift), SLE Micro (Rancher) | |
| 24 | GitOps 자동 배포 | ArgoCD / Flux | ✅ 명시적 요구 |
| 25 | 멀티 클러스터 관리 | ACM (OpenShift) / Rancher | |
| 29 | 컨테이너 전용 Host OS (NIST 800-190) | RHCOS, SLE Micro | |
| 30 | Bare Metal LB | MetalLB |
5.2 PaaS 플랫폼 후보
| Red Hat OpenShift (RHOCP) | SUSE Rancher (RKE2) | |
|---|---|---|
| 기반 | K8s + 자체 확장 | 순수 K8s (CNCF 인증) |
| Host OS | RHCOS (Immutable) | SLE Micro (Immutable) |
| 서비스 메시 | OpenShift Service Mesh (Istio 기반) ✅ | Istio 직접 설치 |
| GitOps | OpenShift GitOps (ArgoCD 기반) ✅ | Fleet (내장) 또는 ArgoCD |
| GPU 지원 | NVIDIA GPU Operator ✅ | NVIDIA GPU Operator ✅ |
| Knative | OpenShift Serverless (Knative 기반) ✅ | Knative 직접 설치 |
| 멀티 클러스터 | ACM (Advanced Cluster Management) | ✅ Rancher 핵심 기능 |
| 보안 | SCC (Security Context Constraints) | PSA + OPA/Gatekeeper |
| 국내 레퍼런스 | ✅ 공공 SI에서 많이 사용 | 증가 추세 |
| 엔터프라이즈 지원 | ✅ Red Hat 한국 지사 | SUSE 한국 지사 |
💡 OpenShift가 유력한 후보. 제안요청서의 요구사항(Istio, Knative, GitOps, Immutable OS, 엔터프라이즈 Linux, 멀티 클러스터, NIST 800-190)을 네이티브로 충족함. 공공 SI에서의 레퍼런스도 풍부.
5.3 GPU 가상화 — NVIDIA GPU Operator + MIG
NVIDIA GPU Operator가 자동으로 관리하는 것:
- GPU 드라이버 설치/업데이트
- NVIDIA Container Toolkit (nvidia-docker2 대체)
- DCGM (Data Center GPU Manager) — GPU 모니터링
- MIG Manager — GPU 분할 관리
- GFD (GPU Feature Discovery) — K8s 노드에 GPU 레이블 자동 부여
MIG (Multi-Instance GPU):
B300이 MIG를 지원하면, 하나의 B300을 최대 7개의 독립 GPU 인스턴스로 분할 가능. 멀티 테넌시 환경에서 수요기관별 GPU 할당에 활용.
# MIG로 분할된 GPU를 Pod에 할당하는 예시
resources:
limits:
nvidia.com/mig-3g.40gb: 1 # MIG 인스턴스 1개 요청
6. GeDAI와 LLM 추론 인프라
6.1 GeDAI (Generative Defense AI)
OO기관에서 운영하는 국방 생성형 AI 서비스. 이 사업은 GeDAI의 대규모 추론을 위한 인프라 증설.
6.2 LLM 추론 서빙 스택
| 추론 엔진 | 특징 | 이 사업 관련 |
|---|---|---|
| TensorRT-LLM | NVIDIA GPU 최적화, MLPerf 제출용 | ✅ 성능 최적 |
| vLLM | PagedAttention, 오픈소스, 범용 | ✅ 서빙 표준 |
| Triton | 멀티모델 서빙, A/B 테스트 | ✅ 프로덕션 |
6.3 멀티 노드 추론 — 대규모 모델
10대 DGX B300 (80 GPU)로 대규모 모델을 멀티 노드로 추론:
| 병렬화 | 방식 | 활용 |
|---|---|---|
| Tensor Parallelism (TP) | 하나의 레이어를 여러 GPU에 분할 | DGX 내부 (NVLink) |
| Pipeline Parallelism (PP) | 레이어 그룹을 DGX 간에 분할 | DGX 간 (800G 네트워크) |
| Data Parallelism | 같은 모델을 여러 인스턴스로 복제 | 처리량 증가 |
💡 B300 288GB × 8 = 2.3TB per DGX. 70B 모델은 FP16에서 ~140GB이므로 DGX 1대로 충분. 405B 모델은 ~810GB이므로 1대 내 8-GPU TP로 가능. 더 큰 MoE 모델은 멀티 노드 PP 필요.
6.4 핵심 추론 메트릭
| 메트릭 | 의미 | 중요도 |
|---|---|---|
| TTFT (Time to First Token) | 첫 토큰까지의 지연 | ✅ 사용자 체감 |
| TPOT (Time per Output Token) | 토큰당 생성 시간 | ✅ 생성 속도 |
| Throughput (Tokens/sec) | 초당 생성 토큰 수 (전체 시스템) | ✅ 시스템 용량 |
| Concurrent Users | 동시 처리 가능 사용자 수 | ✅ 서비스 용량 |
7. 보안 요구사항
7.1 국방 보안 특수성
| 요구 | 설명 |
|---|---|
| CC인증 | 관제/보안 SW는 CC인증 또는 보안기능확인서 필수. 유효기간 1년 이상 |
| 보안취약점 점검 | HW, OS, SW 보안 패치. 국방부 훈령 준수 |
| 국방보안업무훈령 | 모든 사항 준수 |
| USB/LAN 물리적 차단 | USB 및 LAN 포트 물리적 접속 차단 장치 제공 |
| 접근제어 | 관리자/사용자 권한별 접근제어 및 접근 기록 관리 |
7.2 K8s 보안 관련
| 제안요청서 요구 | K8s 대응 |
|---|---|
| 멀티 테넌시 격리 | Namespace + NetworkPolicy + RBAC |
| 컨테이너 전용 Host OS (NIST 800-190) | RHCOS (OpenShift) |
| 이미지 보안 | 이미지 스캐닝(Trivy), Private Registry |
| 컨테이너 네이티브 보안 | StackRox (OpenShift ACS) |
8. 학습 우선순위 로드맵
Phase 1: 즉시 (제안서 작성 전)
| 주제 | 학습 내용 | 시간 |
|---|---|---|
| DGX B300 스펙 | B300 GPU, NVLink 6, NVSwitch, ConnectX-8 | 2h |
| 800G 네트워크 | GPU Direct RDMA, Spine-Leaf, NVIDIA Ref Arch | 2h |
| MLPerf 이해 | Inference 벤치마크, 시나리오, 결과 읽기 | 2h |
| PaaS 요구사항 매핑 | ECR-09의 31개 요구를 OpenShift/Rancher 기능과 매핑 | 3h |
Phase 2: 제안서 작성 중
| 주제 | 학습 내용 | 시간 |
|---|---|---|
| TensorRT-LLM | NVIDIA 추론 최적화 엔진, 양자화, 배치 | 3h |
| NVIDIA GPU Operator | K8s에서 GPU 관리 자동화, MIG 설정 | 2h |
| OpenShift + GPU | RHOCP에서 GPU 워크로드 운영 방법 | 3h |
| 국방 보안 규정 | CC인증, 보안취약점, 국방보안업무훈령 기초 | 2h |
Phase 3: 제안서 완성 후
| 주제 | 학습 내용 | 시간 |
|---|---|---|
| MLPerf 실행 | 실제 MLPerf Inference 벤치마크 실행 방법 | 4h |
| Istio on OpenShift | Service Mesh 구성, mTLS, 트래픽 관리 | 3h |
| 모니터링 | DCGM + Prometheus + Grafana GPU 대시보드 | 2h |
9. 참고 자료
NVIDIA
- NVIDIA B200/B300 Datasheet
- NVIDIA DGX Platform
- NVIDIA GPU Operator Documentation
- TensorRT-LLM
- NVIDIA ConnectX-8