OO기관 통합AI데이터센터 GPU 서버 구축사업 — 학습 자료

제안요청서 분석 기반 핵심 기술 영역 정리

1. 사업 개요 요약

1.1 사업 핵심

항목	내용
사업명	OO기관 통합AI데이터센터 실증목적 GPU 서버 구축사업
목적	국방 생성형 AI(GeDAI) 확대를 위한 GPU 인프라 증설
예산	약 216억원 (리스)
기간	계약 후 210일
평가	기술평가 90% + 가격평가 10% (차등점수제 3점)

1.2 도입 물량

품목	수량	핵심 스펙
GPU 서버 (B300 288GB)	10대	NVIDIA DGX B300 SXM 8-GPU, 총 80 GPU
클라우드 관리서버	-	Master Node
(서비스) SPINE/LEAF 스위치	-	200G/400G
(관리) OOB 스위치	-
(컴퓨팅) SPINE/LEAF 스위치	-	800G (GPU Direct RDMA)
고속 NAS 스토리지	-	200~400G 연결
GPU 서버 가상화 SW (PaaS)	10EA	컨테이너 기반, Istio, Knative 등
관제 및 보안 SW	-	CC인증 필요
표준 Rack 및 기반환경	-	컨테인먼트, 분전반 등

1.3 네트워크 구성

1.4 성능 검증 요구사항 (핵심)

제안요청서에서 명시:

"GPU의 성능을 100% 활용할 수 있음을 증명하기 위하여 모델의 학습 및 추론 성능 수치를 제시하고 시연해야 함"

시험평가용 AI 모델은 수행사가 반입
성능측정 도구, 방법을 제시해야 함
GPU 사용현황 확인 필수

→ MLPerf가 이 성능 검증의 표준 도구로 활용될 수 있음

2. NVIDIA DGX B300 (Blackwell Ultra) 아키텍처

2.1 B300 GPU 스펙

항목	B300 SXM	비교: H100 SXM
아키텍처	Blackwell Ultra	Hopper
HBM 메모리	288GB HBM3e	80GB HBM3
메모리 대역폭	8TB/s	3.35TB/s
FP4 Dense	14 PFLOPS (per GPU)	—
시스템 추론 성능	192 PFLOPS (8-GPU)	—
TDP	1,400W (per GPU)	700W
인터커넥트	NVLink 6	NVLink 4

⚠️ B300은 B200의 메모리 확장 버전(Blackwell Ultra). B200이 192GB HBM3e인 반면, B300은 288GB HBM3e로 대형 모델(70B+)의 추론에서 더 많은 KV Cache를 담을 수 있음.

2.2 DGX B300 시스템 구성

컴포넌트	스펙
GPU	B300 SXM ×8 (총 2.3TB HBM3e)
CPU	2× Intel Xeon Platinum 6776P (x86, 96코어)
시스템 메모리	2,048GB DDR5 6400MT/s
GPU 인터커넥트	NVLink 6 (GPU 간 1.8TB/s 양방향)
NVSwitch	NVSwitch 4세대 (8-GPU 풀 메시)
네트워크	ConnectX-8 VPI ×8 (800Gbps/포트)
서비스 NIC	200Gbps ×2 (듀얼 포트)
DPU	BlueField-3 DPU ×2 (스토리지 가속, 인프라 관리, 보안 격리)
OS 디스크	M.2 960GB SSD ×2
데이터 디스크	NVMe 3.84TB SSD ×4
PSU	3200W+ Titanium ×6+6 (N+N)
폼 팩터	10U

2.3 NVLink & NVSwitch — GPU 간 인터커넥트

세대	대역폭 (양방향)	연결	플랫폼
NVLink 3	600GB/s	P2P	A100
NVLink 4	900GB/s	NVSwitch 3세대	H100/H200
NVLink 5	1.8TB/s	NVSwitch 4세대	B200
NVLink 6	1.8TB/s+	NVSwitch 4세대	B300

NVSwitch의 역할:

8개 GPU를 풀 메시(All-to-All)로 연결
어떤 GPU든 다른 GPU의 메모리에 NVLink 최대 속도로 접근 가능
대형 모델의 Tensor Parallelism에 필수

2.4 DGX 간 통신 — 800G 네트워크

DGX 내부: NVLink (1.8TB/s) DGX 간: 800Gbps Ethernet/InfiniBand (ConnectX-8)

이 사업에서는 800Gbps Ethernet (VPI 모드)으로 구성. 10대 DGX 간의 대규모 추론/학습을 위한 고속 통신.

3. GPU 클러스터 네트워킹

3.1 GPU Direct RDMA

GPU 메모리에서 CPU를 거치지 않고 네트워크를 통해 직접 데이터 전송.

방식	경로	지연
기존	GPU → CPU → 메모리 → NIC → 네트워크	높음
GPU Direct RDMA	GPU → NIC → 네트워크 (CPU 우회)	낮음

3.2 NVIDIA Reference Architecture

제안요청서에서 명시: "GPU Direct RDMA 방식의 NVIDIA Reference Architecture 기반의 제품 (검수시 증빙서류 제출)"

이는 NVIDIA가 공식적으로 검증한 네트워크 토폴로지와 구성을 따라야 한다는 의미.

3.3 Spine-Leaf 토폴로지

구간	속도	프로토콜
GPU서버 ↔ 컴퓨팅 LEAF	800Gbps	Ethernet (VPI)
컴퓨팅 LEAF ↔ SPINE	800Gbps	Ethernet
GPU서버 ↔ 서비스 LEAF	200Gbps	Ethernet
서비스 LEAF ↔ SPINE	400Gbps	Ethernet
NAS ↔ 서비스 LEAF	200~400Gbps	Ethernet

3.4 InfiniBand vs Ethernet (VPI 모드)

ConnectX-8 VPI는 InfiniBand와 Ethernet 모두 지원하는 어댑터.

	InfiniBand	Ethernet (RoCEv2)
지연	✅ 최저 (~1μs)	낮음 (~2μs)
RDMA	✅ 네이티브	RoCEv2로 지원
관리	전용 SM(Subnet Manager) 필요	기존 네트워크 팀이 관리 가능
비용	높음	✅ 상대적 저렴
이 사업	800Gbps IB 지원	✅ 800Gbps Ethernet으로 구성 예상

💡 이 사업은 "800Gbps InfiniBand / Ethernet 지원 (VPI 모드)"로 명시. 실제 구성은 기관의 기존 네트워크 환경에 따라 결정될 것. 기존에 Ethernet 기반이면 RoCEv2, IB 인프라가 있으면 InfiniBand.

4. MLPerf — 성능 검증 도구

4.1 MLPerf가 이 사업에서 중요한 이유

제안요청서 요구:

"GPU의 성능을 100% 활용할 수 있음을 증명"
"모델의 학습 및 추론 성능 수치를 제시하고 시연"
"성능측정 도구, 방법 등" 제시

MLPerf는 이 요구를 충족하는 업계 표준 벤치마크.

4.2 MLPerf 벤치마크 종류

벤치마크	측정 대상	이 사업 관련도
MLPerf Inference	추론 성능 (토큰/초, 지연)	✅ 핵심
MLPerf Training	학습 시간 (목표 정확도까지)	✅ 관련
MLPerf Storage	스토리지 I/O 성능	🔸 간접

4.3 MLPerf Inference — 이 사업의 핵심 벤치마크

시나리오

시나리오	패턴	메트릭	의미
Offline	전체 데이터를 배치 처리	Tokens/sec (처리량)	최대 처리량 측정
Server	실시간 요청 (비균일 도착)	지연 제약 하 처리량	✅ 실서비스 시나리오

Server 시나리오가 실제 GeDAI 서비스 환경에 가장 가까움.

모델	태스크	관련도
Llama 2-70B	대규모 LLM 추론	✅ GeDAI 유사
DeepSeek R1	추론(reasoning) 모델	✅ 신규 추가
Llama 3.1 8B	소형 LLM	🔸
Whisper Large V3	음성→텍스트	🔸
Stable Diffusion XL	이미지 생성	❌
ResNet-50	이미지 분류	❌
BERT	자연어 이해	❌

이 사업에서의 활용 전략

제안서에 넣을 수 있는 포인트:

MLPerf Inference Datacenter 벤치마크를 성능 검증 기준으로 제시
Llama 2-70B (또는 유사 규모 모델)로 Offline + Server 시나리오 테스트
NVIDIA의 공식 MLPerf 제출 결과를 기준으로 성능 달성률 비교
추가로 GeDAI 모델을 직접 탑재하여 실서비스 환경 성능 시연

4.4 MLPerf Inference 실행 환경

# MLPerf Inference 레포지토리
git clone https://github.com/mlcommons/inference.git

# NVIDIA 제출 구현 (최적화됨)
# https://github.com/mlcommons/inference_results_v5.1
# NVIDIA 폴더에서 B200/B300용 결과와 코드 확인 가능

실제 실행에는 NVIDIA TensorRT-LLM이 추론 엔진으로 사용됨.

4.5 MLPerf 결과 읽는 법

MLCommons 결과 대시보드: https://mlcommons.org/benchmarks/inference-datacenter/

필드	의미
System	시스템 구성 (예: "8x NVIDIA B200 SXM")
Accelerator	GPU 종류와 수량
Scenario	Offline 또는 Server
Result	Tokens/sec (Offline) 또는 지연 제약 처리량 (Server)
Division	Closed (동일 모델) 또는 Open (자유)
Category	Available / Preview / RDI

5. 컨테이너 기반 GPU PaaS 플랫폼

5.1 제안요청서의 PaaS 요구사항 핵심

제안요청서 ECR-09에서 요구하는 PaaS 플랫폼의 핵심 기능:

#	요구사항	K8s 대응	비고
1	Containerd 기반 컨테이너 관리	✅ K8s 기본
2	HW 종속 없는 엔터프라이즈 PaaS	RHOCP(OpenShift) 또는 Rancher
5	Operator 배포 자동화	K8s Operator 패턴
7	엔터프라이즈 Linux OS 포함	RHEL (OpenShift), SLES (Rancher)	커뮤니티 OS 배제
9	관리 시스템 이중화	Control Plane HA
11	Auto Scale out/in	HPA, Cluster Autoscaler
14	멀티 테넌시	Namespace + RBAC
19	Istio 기반 서비스 메시	Istio Service Mesh	✅ 명시적 요구
20	Knative 서버리스	Knative Serving/Eventing	✅ 명시적 요구
21	AI/ML GPU 연계	NVIDIA GPU Operator, MIG
22	Immutable Host OS	CoreOS (OpenShift), SLE Micro (Rancher)
24	GitOps 자동 배포	ArgoCD / Flux	✅ 명시적 요구
25	멀티 클러스터 관리	ACM (OpenShift) / Rancher
29	컨테이너 전용 Host OS (NIST 800-190)	RHCOS, SLE Micro
30	Bare Metal LB	MetalLB

5.2 PaaS 플랫폼 후보

	Red Hat OpenShift (RHOCP)	SUSE Rancher (RKE2)
기반	K8s + 자체 확장	순수 K8s (CNCF 인증)
Host OS	RHCOS (Immutable)	SLE Micro (Immutable)
서비스 메시	OpenShift Service Mesh (Istio 기반) ✅	Istio 직접 설치
GitOps	OpenShift GitOps (ArgoCD 기반) ✅	Fleet (내장) 또는 ArgoCD
GPU 지원	NVIDIA GPU Operator ✅	NVIDIA GPU Operator ✅
Knative	OpenShift Serverless (Knative 기반) ✅	Knative 직접 설치
멀티 클러스터	ACM (Advanced Cluster Management)	✅ Rancher 핵심 기능
보안	SCC (Security Context Constraints)	PSA + OPA/Gatekeeper
국내 레퍼런스	✅ 공공 SI에서 많이 사용	증가 추세
엔터프라이즈 지원	✅ Red Hat 한국 지사	SUSE 한국 지사

💡 OpenShift가 유력한 후보. 제안요청서의 요구사항(Istio, Knative, GitOps, Immutable OS, 엔터프라이즈 Linux, 멀티 클러스터, NIST 800-190)을 네이티브로 충족함. 공공 SI에서의 레퍼런스도 풍부.

5.3 GPU 가상화 — NVIDIA GPU Operator + MIG

NVIDIA GPU Operator가 자동으로 관리하는 것:

GPU 드라이버 설치/업데이트
NVIDIA Container Toolkit (nvidia-docker2 대체)
DCGM (Data Center GPU Manager) — GPU 모니터링
MIG Manager — GPU 분할 관리
GFD (GPU Feature Discovery) — K8s 노드에 GPU 레이블 자동 부여

MIG (Multi-Instance GPU):

B300이 MIG를 지원하면, 하나의 B300을 최대 7개의 독립 GPU 인스턴스로 분할 가능. 멀티 테넌시 환경에서 수요기관별 GPU 할당에 활용.

# MIG로 분할된 GPU를 Pod에 할당하는 예시
resources:
  limits:
    nvidia.com/mig-3g.40gb: 1    # MIG 인스턴스 1개 요청

6. GeDAI와 LLM 추론 인프라

6.1 GeDAI (Generative Defense AI)

OO기관에서 운영하는 국방 생성형 AI 서비스. 이 사업은 GeDAI의 대규모 추론을 위한 인프라 증설.

6.2 LLM 추론 서빙 스택

추론 엔진	특징	이 사업 관련
TensorRT-LLM	NVIDIA GPU 최적화, MLPerf 제출용	✅ 성능 최적
vLLM	PagedAttention, 오픈소스, 범용	✅ 서빙 표준
Triton	멀티모델 서빙, A/B 테스트	✅ 프로덕션

6.3 멀티 노드 추론 — 대규모 모델

10대 DGX B300 (80 GPU)로 대규모 모델을 멀티 노드로 추론:

병렬화	방식	활용
Tensor Parallelism (TP)	하나의 레이어를 여러 GPU에 분할	DGX 내부 (NVLink)
Pipeline Parallelism (PP)	레이어 그룹을 DGX 간에 분할	DGX 간 (800G 네트워크)
Data Parallelism	같은 모델을 여러 인스턴스로 복제	처리량 증가

💡 B300 288GB × 8 = 2.3TB per DGX. 70B 모델은 FP16에서 ~140GB이므로 DGX 1대로 충분. 405B 모델은 ~810GB이므로 1대 내 8-GPU TP로 가능. 더 큰 MoE 모델은 멀티 노드 PP 필요.

6.4 핵심 추론 메트릭

메트릭	의미	중요도
TTFT (Time to First Token)	첫 토큰까지의 지연	✅ 사용자 체감
TPOT (Time per Output Token)	토큰당 생성 시간	✅ 생성 속도
Throughput (Tokens/sec)	초당 생성 토큰 수 (전체 시스템)	✅ 시스템 용량
Concurrent Users	동시 처리 가능 사용자 수	✅ 서비스 용량

7. 보안 요구사항

7.1 국방 보안 특수성

요구	설명
CC인증	관제/보안 SW는 CC인증 또는 보안기능확인서 필수. 유효기간 1년 이상
보안취약점 점검	HW, OS, SW 보안 패치. 국방부 훈령 준수
국방보안업무훈령	모든 사항 준수
USB/LAN 물리적 차단	USB 및 LAN 포트 물리적 접속 차단 장치 제공
접근제어	관리자/사용자 권한별 접근제어 및 접근 기록 관리

7.2 K8s 보안 관련

제안요청서 요구	K8s 대응
멀티 테넌시 격리	Namespace + NetworkPolicy + RBAC
컨테이너 전용 Host OS (NIST 800-190)	RHCOS (OpenShift)
이미지 보안	이미지 스캐닝(Trivy), Private Registry
컨테이너 네이티브 보안	StackRox (OpenShift ACS)

8. 학습 우선순위 로드맵

Phase 1: 즉시 (제안서 작성 전)

주제	학습 내용	시간
DGX B300 스펙	B300 GPU, NVLink 6, NVSwitch, ConnectX-8	2h
800G 네트워크	GPU Direct RDMA, Spine-Leaf, NVIDIA Ref Arch	2h
MLPerf 이해	Inference 벤치마크, 시나리오, 결과 읽기	2h
PaaS 요구사항 매핑	ECR-09의 31개 요구를 OpenShift/Rancher 기능과 매핑	3h

Phase 2: 제안서 작성 중

주제	학습 내용	시간
TensorRT-LLM	NVIDIA 추론 최적화 엔진, 양자화, 배치	3h
NVIDIA GPU Operator	K8s에서 GPU 관리 자동화, MIG 설정	2h
OpenShift + GPU	RHOCP에서 GPU 워크로드 운영 방법	3h
국방 보안 규정	CC인증, 보안취약점, 국방보안업무훈령 기초	2h

Phase 3: 제안서 완성 후

주제	학습 내용	시간
MLPerf 실행	실제 MLPerf Inference 벤치마크 실행 방법	4h
Istio on OpenShift	Service Mesh 구성, mTLS, 트래픽 관리	3h
모니터링	DCGM + Prometheus + Grafana GPU 대시보드	2h

1. 사업 개요 요약​

1.1 사업 핵심​

1.2 도입 물량​

1.3 네트워크 구성​

1.4 성능 검증 요구사항 (핵심)​

2. NVIDIA DGX B300 (Blackwell Ultra) 아키텍처​

2.1 B300 GPU 스펙​

2.2 DGX B300 시스템 구성​

2.3 NVLink & NVSwitch — GPU 간 인터커넥트​

2.4 DGX 간 통신 — 800G 네트워크​

3. GPU 클러스터 네트워킹​

3.1 GPU Direct RDMA​

3.2 NVIDIA Reference Architecture​

3.3 Spine-Leaf 토폴로지​

3.4 InfiniBand vs Ethernet (VPI 모드)​

4. MLPerf — 성능 검증 도구​

4.1 MLPerf가 이 사업에서 중요한 이유​

4.2 MLPerf 벤치마크 종류​

4.3 MLPerf Inference — 이 사업의 핵심 벤치마크​

시나리오​

최신 벤치마크 모델 (v5.1, 2025.09)​

이 사업에서의 활용 전략​

4.4 MLPerf Inference 실행 환경​

4.5 MLPerf 결과 읽는 법​

5. 컨테이너 기반 GPU PaaS 플랫폼​

5.1 제안요청서의 PaaS 요구사항 핵심​

5.2 PaaS 플랫폼 후보​

5.3 GPU 가상화 — NVIDIA GPU Operator + MIG​

6. GeDAI와 LLM 추론 인프라​

6.1 GeDAI (Generative Defense AI)​

6.2 LLM 추론 서빙 스택​

6.3 멀티 노드 추론 — 대규모 모델​

6.4 핵심 추론 메트릭​

7. 보안 요구사항​

7.1 국방 보안 특수성​

7.2 K8s 보안 관련​

8. 학습 우선순위 로드맵​

Phase 1: 즉시 (제안서 작성 전)​

Phase 2: 제안서 작성 중​

Phase 3: 제안서 완성 후​

9. 참고 자료​

NVIDIA​

MLPerf​

K8s / PaaS​

LLM 추론​