Skip to main content

OO기관 통합AI데이터센터 GPU 서버 구축사업 — 학습 자료

제안요청서 분석 기반 핵심 기술 영역 정리


1. 사업 개요 요약

1.1 사업 핵심

항목내용
사업명OO기관 통합AI데이터센터 실증목적 GPU 서버 구축사업
목적국방 생성형 AI(GeDAI) 확대를 위한 GPU 인프라 증설
예산약 216억원 (리스)
기간계약 후 210일
평가기술평가 90% + 가격평가 10% (차등점수제 3점)

1.2 도입 물량

품목수량핵심 스펙
GPU 서버 (B300 288GB)10대NVIDIA DGX B300 SXM 8-GPU, 총 80 GPU
클라우드 관리서버-Master Node
(서비스) SPINE/LEAF 스위치-200G/400G
(관리) OOB 스위치-
(컴퓨팅) SPINE/LEAF 스위치-800G (GPU Direct RDMA)
고속 NAS 스토리지-200~400G 연결
GPU 서버 가상화 SW (PaaS)10EA컨테이너 기반, Istio, Knative 등
관제 및 보안 SW-CC인증 필요
표준 Rack 및 기반환경-컨테인먼트, 분전반 등

1.3 네트워크 구성

1.4 성능 검증 요구사항 (핵심)

제안요청서에서 명시:

"GPU의 성능을 100% 활용할 수 있음을 증명하기 위하여 모델의 학습 및 추론 성능 수치를 제시하고 시연해야 함"

  • 시험평가용 AI 모델은 수행사가 반입
  • 성능측정 도구, 방법을 제시해야 함
  • GPU 사용현황 확인 필수

MLPerf가 이 성능 검증의 표준 도구로 활용될 수 있음


2. NVIDIA DGX B300 (Blackwell Ultra) 아키텍처

2.1 B300 GPU 스펙

항목B300 SXM비교: H100 SXM
아키텍처Blackwell UltraHopper
HBM 메모리288GB HBM3e80GB HBM3
메모리 대역폭8TB/s3.35TB/s
FP4 Dense14 PFLOPS (per GPU)
시스템 추론 성능192 PFLOPS (8-GPU)
TDP1,400W (per GPU)700W
인터커넥트NVLink 6NVLink 4

⚠️ B300은 B200의 메모리 확장 버전(Blackwell Ultra). B200이 192GB HBM3e인 반면, B300은 288GB HBM3e로 대형 모델(70B+)의 추론에서 더 많은 KV Cache를 담을 수 있음.

2.2 DGX B300 시스템 구성

컴포넌트스펙
GPUB300 SXM ×8 (총 2.3TB HBM3e)
CPUIntel Xeon Platinum 6776P (x86, 96코어)
시스템 메모리2,048GB DDR5 6400MT/s
GPU 인터커넥트NVLink 6 (GPU 간 1.8TB/s 양방향)
NVSwitchNVSwitch 4세대 (8-GPU 풀 메시)
네트워크ConnectX-8 VPI ×8 (800Gbps/포트)
서비스 NIC200Gbps ×2 (듀얼 포트)
DPUBlueField-3 DPU ×2 (스토리지 가속, 인프라 관리, 보안 격리)
OS 디스크M.2 960GB SSD ×2
데이터 디스크NVMe 3.84TB SSD ×4
PSU3200W+ Titanium ×6+6 (N+N)
폼 팩터10U
세대대역폭 (양방향)연결플랫폼
NVLink 3600GB/sP2PA100
NVLink 4900GB/sNVSwitch 3세대H100/H200
NVLink 51.8TB/sNVSwitch 4세대B200
NVLink 61.8TB/s+NVSwitch 4세대B300

NVSwitch의 역할:

  • 8개 GPU를 풀 메시(All-to-All)로 연결
  • 어떤 GPU든 다른 GPU의 메모리에 NVLink 최대 속도로 접근 가능
  • 대형 모델의 Tensor Parallelism에 필수

2.4 DGX 간 통신 — 800G 네트워크

DGX 내부: NVLink (1.8TB/s) DGX 간: 800Gbps Ethernet/InfiniBand (ConnectX-8)

이 사업에서는 800Gbps Ethernet (VPI 모드)으로 구성. 10대 DGX 간의 대규모 추론/학습을 위한 고속 통신.


3. GPU 클러스터 네트워킹

3.1 GPU Direct RDMA

GPU 메모리에서 CPU를 거치지 않고 네트워크를 통해 직접 데이터 전송.

방식경로지연
기존GPU → CPU → 메모리 → NIC → 네트워크높음
GPU Direct RDMAGPU → NIC → 네트워크 (CPU 우회)낮음

3.2 NVIDIA Reference Architecture

제안요청서에서 명시: "GPU Direct RDMA 방식의 NVIDIA Reference Architecture 기반의 제품 (검수시 증빙서류 제출)"

이는 NVIDIA가 공식적으로 검증한 네트워크 토폴로지와 구성을 따라야 한다는 의미.

3.3 Spine-Leaf 토폴로지

구간속도프로토콜
GPU서버 ↔ 컴퓨팅 LEAF800GbpsEthernet (VPI)
컴퓨팅 LEAF ↔ SPINE800GbpsEthernet
GPU서버 ↔ 서비스 LEAF200GbpsEthernet
서비스 LEAF ↔ SPINE400GbpsEthernet
NAS ↔ 서비스 LEAF200~400GbpsEthernet

3.4 InfiniBand vs Ethernet (VPI 모드)

ConnectX-8 VPI는 InfiniBand와 Ethernet 모두 지원하는 어댑터.

InfiniBandEthernet (RoCEv2)
지연✅ 최저 (~1μs)낮음 (~2μs)
RDMA✅ 네이티브RoCEv2로 지원
관리전용 SM(Subnet Manager) 필요기존 네트워크 팀이 관리 가능
비용높음✅ 상대적 저렴
이 사업800Gbps IB 지원✅ 800Gbps Ethernet으로 구성 예상

💡 이 사업은 "800Gbps InfiniBand / Ethernet 지원 (VPI 모드)"로 명시. 실제 구성은 기관의 기존 네트워크 환경에 따라 결정될 것. 기존에 Ethernet 기반이면 RoCEv2, IB 인프라가 있으면 InfiniBand.


4. MLPerf — 성능 검증 도구

4.1 MLPerf가 이 사업에서 중요한 이유

제안요청서 요구:

  • "GPU의 성능을 100% 활용할 수 있음을 증명"
  • "모델의 학습 및 추론 성능 수치를 제시하고 시연"
  • "성능측정 도구, 방법 등" 제시

MLPerf는 이 요구를 충족하는 업계 표준 벤치마크.

4.2 MLPerf 벤치마크 종류

벤치마크측정 대상이 사업 관련도
MLPerf Inference추론 성능 (토큰/초, 지연)✅ 핵심
MLPerf Training학습 시간 (목표 정확도까지)✅ 관련
MLPerf Storage스토리지 I/O 성능🔸 간접

4.3 MLPerf Inference — 이 사업의 핵심 벤치마크

시나리오

시나리오패턴메트릭의미
Offline전체 데이터를 배치 처리Tokens/sec (처리량)최대 처리량 측정
Server실시간 요청 (비균일 도착)지연 제약 하 처리량✅ 실서비스 시나리오

Server 시나리오가 실제 GeDAI 서비스 환경에 가장 가까움.

최신 벤치마크 모델 (v5.1, 2025.09)

모델태스크관련도
Llama 2-70B대규모 LLM 추론✅ GeDAI 유사
DeepSeek R1추론(reasoning) 모델✅ 신규 추가
Llama 3.1 8B소형 LLM🔸
Whisper Large V3음성→텍스트🔸
Stable Diffusion XL이미지 생성
ResNet-50이미지 분류
BERT자연어 이해

이 사업에서의 활용 전략

제안서에 넣을 수 있는 포인트:

  1. MLPerf Inference Datacenter 벤치마크를 성능 검증 기준으로 제시
  2. Llama 2-70B (또는 유사 규모 모델)로 Offline + Server 시나리오 테스트
  3. NVIDIA의 공식 MLPerf 제출 결과를 기준으로 성능 달성률 비교
  4. 추가로 GeDAI 모델을 직접 탑재하여 실서비스 환경 성능 시연

4.4 MLPerf Inference 실행 환경

# MLPerf Inference 레포지토리
git clone https://github.com/mlcommons/inference.git

# NVIDIA 제출 구현 (최적화됨)
# https://github.com/mlcommons/inference_results_v5.1
# NVIDIA 폴더에서 B200/B300용 결과와 코드 확인 가능

실제 실행에는 NVIDIA TensorRT-LLM이 추론 엔진으로 사용됨.

4.5 MLPerf 결과 읽는 법

MLCommons 결과 대시보드: https://mlcommons.org/benchmarks/inference-datacenter/

필드의미
System시스템 구성 (예: "8x NVIDIA B200 SXM")
AcceleratorGPU 종류와 수량
ScenarioOffline 또는 Server
ResultTokens/sec (Offline) 또는 지연 제약 처리량 (Server)
DivisionClosed (동일 모델) 또는 Open (자유)
CategoryAvailable / Preview / RDI

5. 컨테이너 기반 GPU PaaS 플랫폼

5.1 제안요청서의 PaaS 요구사항 핵심

제안요청서 ECR-09에서 요구하는 PaaS 플랫폼의 핵심 기능:

#요구사항K8s 대응비고
1Containerd 기반 컨테이너 관리✅ K8s 기본
2HW 종속 없는 엔터프라이즈 PaaSRHOCP(OpenShift) 또는 Rancher
5Operator 배포 자동화K8s Operator 패턴
7엔터프라이즈 Linux OS 포함RHEL (OpenShift), SLES (Rancher)커뮤니티 OS 배제
9관리 시스템 이중화Control Plane HA
11Auto Scale out/inHPA, Cluster Autoscaler
14멀티 테넌시Namespace + RBAC
19Istio 기반 서비스 메시Istio Service Mesh✅ 명시적 요구
20Knative 서버리스Knative Serving/Eventing✅ 명시적 요구
21AI/ML GPU 연계NVIDIA GPU Operator, MIG
22Immutable Host OSCoreOS (OpenShift), SLE Micro (Rancher)
24GitOps 자동 배포ArgoCD / Flux✅ 명시적 요구
25멀티 클러스터 관리ACM (OpenShift) / Rancher
29컨테이너 전용 Host OS (NIST 800-190)RHCOS, SLE Micro
30Bare Metal LBMetalLB

5.2 PaaS 플랫폼 후보

Red Hat OpenShift (RHOCP)SUSE Rancher (RKE2)
기반K8s + 자체 확장순수 K8s (CNCF 인증)
Host OSRHCOS (Immutable)SLE Micro (Immutable)
서비스 메시OpenShift Service Mesh (Istio 기반) ✅Istio 직접 설치
GitOpsOpenShift GitOps (ArgoCD 기반) ✅Fleet (내장) 또는 ArgoCD
GPU 지원NVIDIA GPU Operator ✅NVIDIA GPU Operator ✅
KnativeOpenShift Serverless (Knative 기반) ✅Knative 직접 설치
멀티 클러스터ACM (Advanced Cluster Management)✅ Rancher 핵심 기능
보안SCC (Security Context Constraints)PSA + OPA/Gatekeeper
국내 레퍼런스✅ 공공 SI에서 많이 사용증가 추세
엔터프라이즈 지원✅ Red Hat 한국 지사SUSE 한국 지사

💡 OpenShift가 유력한 후보. 제안요청서의 요구사항(Istio, Knative, GitOps, Immutable OS, 엔터프라이즈 Linux, 멀티 클러스터, NIST 800-190)을 네이티브로 충족함. 공공 SI에서의 레퍼런스도 풍부.

5.3 GPU 가상화 — NVIDIA GPU Operator + MIG

NVIDIA GPU Operator가 자동으로 관리하는 것:

  • GPU 드라이버 설치/업데이트
  • NVIDIA Container Toolkit (nvidia-docker2 대체)
  • DCGM (Data Center GPU Manager) — GPU 모니터링
  • MIG Manager — GPU 분할 관리
  • GFD (GPU Feature Discovery) — K8s 노드에 GPU 레이블 자동 부여

MIG (Multi-Instance GPU):

B300이 MIG를 지원하면, 하나의 B300을 최대 7개의 독립 GPU 인스턴스로 분할 가능. 멀티 테넌시 환경에서 수요기관별 GPU 할당에 활용.

# MIG로 분할된 GPU를 Pod에 할당하는 예시
resources:
limits:
nvidia.com/mig-3g.40gb: 1 # MIG 인스턴스 1개 요청

6. GeDAI와 LLM 추론 인프라

6.1 GeDAI (Generative Defense AI)

OO기관에서 운영하는 국방 생성형 AI 서비스. 이 사업은 GeDAI의 대규모 추론을 위한 인프라 증설.

6.2 LLM 추론 서빙 스택

추론 엔진특징이 사업 관련
TensorRT-LLMNVIDIA GPU 최적화, MLPerf 제출용✅ 성능 최적
vLLMPagedAttention, 오픈소스, 범용✅ 서빙 표준
Triton멀티모델 서빙, A/B 테스트✅ 프로덕션

6.3 멀티 노드 추론 — 대규모 모델

10대 DGX B300 (80 GPU)로 대규모 모델을 멀티 노드로 추론:

병렬화방식활용
Tensor Parallelism (TP)하나의 레이어를 여러 GPU에 분할DGX 내부 (NVLink)
Pipeline Parallelism (PP)레이어 그룹을 DGX 간에 분할DGX 간 (800G 네트워크)
Data Parallelism같은 모델을 여러 인스턴스로 복제처리량 증가

💡 B300 288GB × 8 = 2.3TB per DGX. 70B 모델은 FP16에서 ~140GB이므로 DGX 1대로 충분. 405B 모델은 ~810GB이므로 1대 내 8-GPU TP로 가능. 더 큰 MoE 모델은 멀티 노드 PP 필요.

6.4 핵심 추론 메트릭

메트릭의미중요도
TTFT (Time to First Token)첫 토큰까지의 지연✅ 사용자 체감
TPOT (Time per Output Token)토큰당 생성 시간✅ 생성 속도
Throughput (Tokens/sec)초당 생성 토큰 수 (전체 시스템)✅ 시스템 용량
Concurrent Users동시 처리 가능 사용자 수✅ 서비스 용량

7. 보안 요구사항

7.1 국방 보안 특수성

요구설명
CC인증관제/보안 SW는 CC인증 또는 보안기능확인서 필수. 유효기간 1년 이상
보안취약점 점검HW, OS, SW 보안 패치. 국방부 훈령 준수
국방보안업무훈령모든 사항 준수
USB/LAN 물리적 차단USB 및 LAN 포트 물리적 접속 차단 장치 제공
접근제어관리자/사용자 권한별 접근제어 및 접근 기록 관리

7.2 K8s 보안 관련

제안요청서 요구K8s 대응
멀티 테넌시 격리Namespace + NetworkPolicy + RBAC
컨테이너 전용 Host OS (NIST 800-190)RHCOS (OpenShift)
이미지 보안이미지 스캐닝(Trivy), Private Registry
컨테이너 네이티브 보안StackRox (OpenShift ACS)

8. 학습 우선순위 로드맵

Phase 1: 즉시 (제안서 작성 전)

주제학습 내용시간
DGX B300 스펙B300 GPU, NVLink 6, NVSwitch, ConnectX-82h
800G 네트워크GPU Direct RDMA, Spine-Leaf, NVIDIA Ref Arch2h
MLPerf 이해Inference 벤치마크, 시나리오, 결과 읽기2h
PaaS 요구사항 매핑ECR-09의 31개 요구를 OpenShift/Rancher 기능과 매핑3h

Phase 2: 제안서 작성 중

주제학습 내용시간
TensorRT-LLMNVIDIA 추론 최적화 엔진, 양자화, 배치3h
NVIDIA GPU OperatorK8s에서 GPU 관리 자동화, MIG 설정2h
OpenShift + GPURHOCP에서 GPU 워크로드 운영 방법3h
국방 보안 규정CC인증, 보안취약점, 국방보안업무훈령 기초2h

Phase 3: 제안서 완성 후

주제학습 내용시간
MLPerf 실행실제 MLPerf Inference 벤치마크 실행 방법4h
Istio on OpenShiftService Mesh 구성, mTLS, 트래픽 관리3h
모니터링DCGM + Prometheus + Grafana GPU 대시보드2h

9. 참고 자료

NVIDIA

MLPerf

K8s / PaaS

LLM 추론