추가 학습 주제

제안요청서에 직접 안 나오지만, 알면 제안서 품질이 올라가고 기술 PT에서 차별화되는 것들

🔴 반드시 알아야 하는 것 (제안서에 직접 영향)

1. NVIDIA AI Enterprise (NVAIE) 라이선스 구조

왜 중요한가: 제안요청서에 "GPU 서버 가상화 SW(PaaS)"를 요구하는데, DGX B300에서 GPU Operator + MIG + 엔터프라이즈 컨테이너(NIM 등)를 사용하려면 NVAIE 라이선스가 필요할 수 있음. 라이선스 비용을 제안에 포함해야 하는지, DGX 구매에 번들인지 확인해야 함.

항목	내용
NVAIE란	GPU 드라이버, K8s Operator, NIM 마이크로서비스, Triton, TensorRT-LLM 등을 포함하는 엔터프라이즈 AI 플랫폼
라이선스	GPU당 연간 구독 또는 영구 라이선스
DGX 번들 여부	⚠️ B200/B300 DGX는 NVAIE가 번들이 아님 (H100은 5년 번들이었음) → 별도 구매 필요
필요 여부	Bare Metal K8s에서 CUDA만 쓰면 불필요. NIM, vGPU, 엔터프라이즈 NGC 컨테이너를 쓰면 필요

학습 포인트:

NVAIE 구성 요소 (Infrastructure Layer vs Application Layer)
DGX B300에서 NVAIE 필요 여부 판단
NLS (NVIDIA License System) — 에어갭 환경(국방)에서 DLS(Delegated License Server) 구성

참고: https://docs.nvidia.com/ai-enterprise/index.html

2. NVIDIA NIM (NVIDIA Inference Microservices)

왜 중요한가: GeDAI 추론 서비스를 K8s 위에서 운영하려면 모델을 어떻게 서빙하는가가 핵심. NIM은 NVIDIA의 최적화된 추론 마이크로서비스로, 모델을 컨테이너 하나로 배포 가능.

항목	내용
NIM이란	사전 최적화된 LLM 추론 컨테이너. TensorRT-LLM 기반. `docker run`으로 바로 서빙
OpenAI 호환	API가 OpenAI Chat Completions API와 호환 → 기존 앱 수정 최소
K8s 배포	Helm Chart로 K8s에 배포, HPA로 오토스케일링
모델	Llama, Mistral, 한국어 모델 등 NGC에서 제공

제안서 활용: "GeDAI 모델을 NIM 형태로 컨테이너화하여 K8s에 배포, 수요기관별 독립 네임스페이스에서 운영" → PaaS 요구사항에 직접 대응.

참고: https://docs.nvidia.com/nim/

3. NCCL (NVIDIA Collective Communications Library)

왜 중요한가: 10대 DGX 간 대규모 추론/학습에서 **GPU 간 집합통신(All-Reduce, All-Gather 등)**의 성능이 전체 시스템 성능을 좌우함. 800G 네트워크의 존재 이유가 바로 이것.

항목	내용
NCCL이란	GPU 간 집합통신 라이브러리. NVLink(노드 내) + 네트워크(노드 간)을 자동으로 활용
집합통신	All-Reduce, All-Gather, Broadcast, Reduce-Scatter 등
토폴로지 인식	NVLink, NVSwitch, PCIe, 네트워크를 인식하여 최적 경로 선택
GPU Direct RDMA	NIC에서 GPU 메모리로 직접 전송 → NCCL이 자동 활용

왜 알아야 하는가:

"GPU 성능 100% 활용 증명" 시, NCCL 벤치마크(all_reduce_perf)가 네트워크 성능 검증에 사용됨
MLPerf 벤치마크도 내부적으로 NCCL을 사용
800G 네트워크의 실효 대역폭이 NCCL 벤치마크로 측정됨

참고: https://developer.nvidia.com/nccl

4. DCGM (Data Center GPU Manager)

왜 중요한가: 제안요청서에서 "GPU 사용현황 확인", "자원 모니터링" 요구. DCGM은 GPU 모니터링의 표준.

항목	내용
DCGM이란	GPU 상태 모니터링, 헬스 체크, 진단, 정책 관리
메트릭	GPU 사용률, 메모리 사용량, 온도, 전력, ECC 에러, NVLink 상태
K8s 연동	DCGM Exporter → Prometheus → Grafana 대시보드
GPU Operator	GPU Operator가 DCGM Exporter를 자동 배포

제안서 활용: "DCGM + Prometheus + Grafana로 GPU 실시간 모니터링 대시보드 구축" → 운영환경 조성(3점)에 직접 대응.

참고: https://developer.nvidia.com/dcgm

🟡 알면 차별화되는 것 (기술 PT/면접에서 강점)

5. TensorRT-LLM — 추론 최적화 엔진

왜 중요한가: GeDAI 모델의 추론 성능을 최대화하려면 TensorRT-LLM이 필수. MLPerf 벤치마크도 TensorRT-LLM으로 실행됨.

핵심 기능	설명
In-Flight Batching	요청을 동적으로 배치 (Continuous Batching)
Paged KV Cache	vLLM의 PagedAttention과 유사
양자화	FP8, FP4, INT8 양자화 → 처리량 2~4배
Tensor Parallelism	멀티 GPU 추론 자동 분배
Speculative Decoding	작은 모델이 초안, 큰 모델이 검증

학습 포인트:

TensorRT-LLM vs vLLM 비교 (NVIDIA GPU에서는 TRT-LLM이 성능 우위)
B300의 FP4 지원 → TensorRT-LLM의 FP4 양자화 활용
MLPerf와의 관계 (MLPerf 제출은 TRT-LLM 기반)

참고: https://github.com/NVIDIA/TensorRT-LLM

6. NVIDIA Spectrum-X (이더넷 AI 네트워킹)

왜 중요한가: 800G Ethernet 구간이 단순한 스위치가 아니라 AI 최적화된 네트워크 패브릭임을 이해해야 함.

항목	내용
Spectrum-X란	NVIDIA의 AI 워크로드 최적화 Ethernet 플랫폼
구성	Spectrum-4 스위치 + ConnectX-8 SuperNIC + NVIDIA DOCA SW
특징	적응형 라우팅, RoCEv2 최적화, 텔레메트리, RDMA 가속
vs InfiniBand	IB보다 저렴하면서 AI 워크로드에 최적화된 Ethernet

왜 알아야 하는가:

이 사업의 800G 네트워크가 Spectrum-X 기반일 가능성
"NVIDIA Reference Architecture 기반" = Spectrum-X 또는 Quantum-X800(IB) 중 하나
일반 Ethernet 스위치(Arista, Cisco)와의 차이를 설명할 수 있으면 차별화

참고: https://www.nvidia.com/en-us/networking/spectrumx/

7. UFM (Unified Fabric Manager)

왜 중요한가: 800G 네트워크 패브릭의 관리, 모니터링, 텔레메트리를 담당하는 소프트웨어.

항목	내용
UFM이란	InfiniBand/Ethernet 패브릭의 중앙 관리 플랫폼
기능	토폴로지 시각화, 장애 감지, 성능 모니터링, 적응형 라우팅
SuperPOD 필수	NVIDIA SuperPOD Reference Architecture에 UFM Appliance 포함

8. NVIDIA Base Command Manager (BCM)

왜 중요한가: DGX 클러스터의 관리/프로비저닝/모니터링 통합 플랫폼.

항목	내용
BCM이란	DGX 시스템의 프로비저닝, 클러스터 관리, 작업 스케줄링
기능	OS 배포, 드라이버 관리, Slurm/K8s 연동, 모니터링
위치	관리서버에 설치 → DGX 노드를 중앙 관리

제안서 활용: "Base Command Manager로 DGX 클러스터 수명주기 관리(프로비저닝, 업데이트, 모니터링) 자동화" → 운영 방안에 포함.

9. PUE (Power Usage Effectiveness) & 데이터센터 전력 효율

왜 중요한가: 전력/냉각 산정에서 PUE를 정확히 이해하고, OO기관의 기존 데이터센터 PUE를 반영해야 함.

항목	내용
PUE	총 전력 / IT 전력. 1.0이면 완벽 (불가능), 1.2~1.5가 일반적
공공 데이터센터	PUE 1.3~1.6 수준
GPU 데이터센터	발열이 높아 냉각 비중 큼 → PUE 악화 가능
개선	DLC(직접 수냉), 프리쿨링, 컨테인먼트 → PUE 1.1~1.2 가능

10. NVIDIA SuperPOD Reference Architecture

왜 중요한가: 제안요청서에 "NVIDIA Reference Architecture 기반"이 명시되어 있음. SuperPOD Ref Arch를 이해해야 정확한 네트워크 구성을 제안할 수 있음.

항목	내용
SuperPOD	NVIDIA의 턴키 AI 데이터센터 인프라 솔루션
구성	DGX 노드 + 네트워크(IB/Ethernet) + 스토리지 + 관리
최소 단위	SU(Scalable Unit) = DGX 8대 + 네트워크
이 사업	DGX 10대 → 약 1.25 SU 규모

학습 포인트:

SuperPOD with DGX B300 Reference Architecture 문서 읽기
랙 배치, 케이블링, 전력, 냉각의 NVIDIA 공식 가이드
네트워크 토폴로지 (Rail-optimized topology)

참고: https://docs.nvidia.com/dgx-superpod/

🟢 알면 좋지만 필수는 아닌 것

11. Confidential Computing (기밀 컴퓨팅)

항목	내용
왜 관련	국방 환경에서 GPU 메모리 내 데이터 보호 요구 가능
NVIDIA CC	H100/B200/B300에서 GPU TEE(Trusted Execution Environment) 지원
적용	멀티테넌시에서 수요기관 간 데이터 격리 강화

12. NVIDIA BlueField-3 DPU 심화

항목	내용
왜 관련	DGX B300에 BlueField-3 DPU ×2 포함. 스토리지 가속 + 보안 격리 담당
기능	NVMe-oF, GPUDirect Storage, 네트워크 가속, 암호화
K8s 연동	DOCA + Network Operator로 K8s에서 DPU 기능 활용

13. GPUDirect Storage

항목	내용
왜 관련	NAS에서 학습 데이터를 GPU로 로딩하는 속도가 학습 성능에 영향
원리	스토리지 → GPU 메모리 직접 전송 (CPU 우회)
요구	NAS가 GPUDirect Storage를 지원해야 함

14. NVIDIA Magnum IO

항목	내용
왜 관련	GPU Direct RDMA, NCCL, GPUDirect Storage를 포함하는 I/O 최적화 스택
구성	NCCL + cuFile + GPUDirect RDMA + SHARP

15. AI 모델 보안 — 프롬프트 인젝션, 모델 포이즈닝

항목	내용
왜 관련	국방 생성형 AI(GeDAI)의 보안 위협 이해
주제	프롬프트 인젝션, 모델 탈취, 학습 데이터 유출, 적대적 공격
방어	가드레일, 입출력 필터링, 모델 접근 제어

16. eBPF 기반 K8s 네트워킹/보안

항목	내용
왜 관련	Cilium CNI가 eBPF 기반이며, 차세대 K8s 네트워킹의 핵심
장점	kube-proxy 대체, L7 정책, 관찰성, 커널 수준 성능
보안	Tetragon으로 런타임 보안 (Falco 대안)

학습 우선순위 요약

우선순위	주제	추정 학습 시간	제안서 영향도
🔴	NVAIE 라이선스 구조	2h	✅ 비용에 직접 영향
🔴	NVIDIA NIM	2h	✅ GeDAI 서빙 방안
🔴	NCCL 집합통신	2h	✅ 성능 검증 이해
🔴	DCGM 모니터링	1h	✅ 운영 방안
🟡	TensorRT-LLM	3h	성능 최적화
🟡	Spectrum-X / UFM	2h	네트워크 차별화
🟡	Base Command Manager	1h	클러스터 관리
🟡	SuperPOD Ref Arch	3h	네트워크/랙 설계
🟡	PUE / 데이터센터 전력	1h	전력 산정 정확도
🟢	Confidential Computing	1h	국방 보안 차별화
🟢	BlueField-3 DPU	2h	구성 이해
🟢	GPUDirect Storage	1h	스토리지 성능
🟢	AI 모델 보안	2h	보안 방안
🟢	eBPF / Cilium	2h	네트워크 보안

MLPerf처럼 "제안요청서에 없지만 쓰면 강력한" 포인트

주제	활용 방법
MLPerf	"GPU 성능 100% 활용 증명"의 업계 표준 벤치마크로 제시
NCCL all_reduce_perf	800G 네트워크 실효 대역폭 검증 도구로 제시
DCGM + Grafana	GPU 모니터링 대시보드를 제안서에 스크린샷으로 포함
NIM	"GeDAI 모델을 NIM 컨테이너로 표준화하여 K8s 네이티브 배포"
Confidential Computing	국방 환경의 데이터 보호를 GPU TEE로 강화 (경쟁사가 언급 안 할 가능성)
SuperPOD Ref Arch	"NVIDIA 공식 검증 아키텍처 100% 준수" (검수 증빙의 근거)

🔴 반드시 알아야 하는 것 (제안서에 직접 영향)​

1. NVIDIA AI Enterprise (NVAIE) 라이선스 구조​

2. NVIDIA NIM (NVIDIA Inference Microservices)​

3. NCCL (NVIDIA Collective Communications Library)​

4. DCGM (Data Center GPU Manager)​

🟡 알면 차별화되는 것 (기술 PT/면접에서 강점)​

5. TensorRT-LLM — 추론 최적화 엔진​

6. NVIDIA Spectrum-X (이더넷 AI 네트워킹)​

7. UFM (Unified Fabric Manager)​

8. NVIDIA Base Command Manager (BCM)​

9. PUE (Power Usage Effectiveness) & 데이터센터 전력 효율​

10. NVIDIA SuperPOD Reference Architecture​

🟢 알면 좋지만 필수는 아닌 것​

11. Confidential Computing (기밀 컴퓨팅)​

12. NVIDIA BlueField-3 DPU 심화​

13. GPUDirect Storage​

14. NVIDIA Magnum IO​

15. AI 모델 보안 — 프롬프트 인젝션, 모델 포이즈닝​

16. eBPF 기반 K8s 네트워킹/보안​

학습 우선순위 요약​

MLPerf처럼 "제안요청서에 없지만 쓰면 강력한" 포인트​

🔴 반드시 알아야 하는 것 (제안서에 직접 영향)

1. NVIDIA AI Enterprise (NVAIE) 라이선스 구조

2. NVIDIA NIM (NVIDIA Inference Microservices)

3. NCCL (NVIDIA Collective Communications Library)

4. DCGM (Data Center GPU Manager)

🟡 알면 차별화되는 것 (기술 PT/면접에서 강점)

5. TensorRT-LLM — 추론 최적화 엔진

6. NVIDIA Spectrum-X (이더넷 AI 네트워킹)

7. UFM (Unified Fabric Manager)

8. NVIDIA Base Command Manager (BCM)

9. PUE (Power Usage Effectiveness) & 데이터센터 전력 효율

10. NVIDIA SuperPOD Reference Architecture

🟢 알면 좋지만 필수는 아닌 것

11. Confidential Computing (기밀 컴퓨팅)

12. NVIDIA BlueField-3 DPU 심화

13. GPUDirect Storage

14. NVIDIA Magnum IO

15. AI 모델 보안 — 프롬프트 인젝션, 모델 포이즈닝

16. eBPF 기반 K8s 네트워킹/보안

학습 우선순위 요약

MLPerf처럼 "제안요청서에 없지만 쓰면 강력한" 포인트