추가 학습 주제
제안요청서에 직접 안 나오지만, 알면 제안서 품질이 올라가고 기술 PT에서 차별화되는 것들
🔴 반드시 알아야 하는 것 (제안서에 직접 영향)
1. NVIDIA AI Enterprise (NVAIE) 라이선스 구조
왜 중요한가: 제안요청서에 "GPU 서버 가상화 SW(PaaS)"를 요구하는데, DGX B300에서 GPU Operator + MIG + 엔터프라이즈 컨테이너(NIM 등)를 사용하려면 NVAIE 라이선스가 필요할 수 있음. 라이선스 비용을 제안에 포함해야 하는지, DGX 구매에 번들인지 확인해야 함.
| 항목 | 내용 |
|---|---|
| NVAIE란 | GPU 드라이버, K8s Operator, NIM 마이크로서비스, Triton, TensorRT-LLM 등을 포함하는 엔터프라이즈 AI 플랫폼 |
| 라이선스 | GPU당 연간 구독 또는 영구 라이선스 |
| DGX 번들 여부 | ⚠️ B200/B300 DGX는 NVAIE가 번들이 아님 (H100은 5년 번들이었음) → 별도 구매 필요 |
| 필요 여부 | Bare Metal K8s에서 CUDA만 쓰면 불필요. NIM, vGPU, 엔터프라이즈 NGC 컨테이너를 쓰면 필요 |
학습 포인트:
- NVAIE 구성 요소 (Infrastructure Layer vs Application Layer)
- DGX B300에서 NVAIE 필요 여부 판단
- NLS (NVIDIA License System) — 에어갭 환경(국방)에서 DLS(Delegated License Server) 구성
참고: https://docs.nvidia.com/ai-enterprise/index.html
2. NVIDIA NIM (NVIDIA Inference Microservices)
왜 중요한가: GeDAI 추론 서비스를 K8s 위에서 운영하려면 모델을 어떻게 서빙하는가가 핵심. NIM은 NVIDIA의 최적화된 추론 마이크로서비스로, 모델을 컨테이너 하나로 배포 가능.
| 항목 | 내용 |
|---|---|
| NIM이란 | 사전 최적화된 LLM 추론 컨테이너. TensorRT-LLM 기반. docker run으로 바로 서빙 |
| OpenAI 호환 | API가 OpenAI Chat Completions API와 호환 → 기존 앱 수정 최소 |
| K8s 배포 | Helm Chart로 K8s에 배포, HPA로 오토스케일링 |
| 모델 | Llama, Mistral, 한국어 모델 등 NGC에서 제공 |
제안서 활용: "GeDAI 모델을 NIM 형태로 컨테이너화하여 K8s에 배포, 수요기관별 독립 네임스페이스에서 운영" → PaaS 요구사항에 직접 대응.
참고: https://docs.nvidia.com/nim/
3. NCCL (NVIDIA Collective Communications Library)
왜 중요한가: 10대 DGX 간 대규모 추론/학습에서 **GPU 간 집합통신(All-Reduce, All-Gather 등)**의 성능이 전체 시스템 성능을 좌우함. 800G 네트워크의 존재 이유가 바로 이것.
| 항목 | 내용 |
|---|---|
| NCCL이란 | GPU 간 집합통신 라이브러리. NVLink(노드 내) + 네트워크(노드 간)을 자동으로 활용 |
| 집합통신 | All-Reduce, All-Gather, Broadcast, Reduce-Scatter 등 |
| 토폴로지 인식 | NVLink, NVSwitch, PCIe, 네트워크를 인식하여 최적 경로 선택 |
| GPU Direct RDMA | NIC에서 GPU 메모리로 직접 전송 → NCCL이 자동 활용 |
왜 알아야 하는가:
- "GPU 성능 100% 활용 증명" 시, NCCL 벤치마크(all_reduce_perf)가 네트워크 성능 검증에 사용됨
- MLPerf 벤치마크도 내부적으로 NCCL을 사용
- 800G 네트워크의 실효 대역폭이 NCCL 벤치마크로 측정됨
참고: https://developer.nvidia.com/nccl
4. DCGM (Data Center GPU Manager)
왜 중요한가: 제안요청서에서 "GPU 사용현황 확인", "자원 모니터링" 요구. DCGM은 GPU 모니터링의 표준.
| 항목 | 내용 |
|---|---|
| DCGM이란 | GPU 상태 모니터링, 헬스 체크, 진단, 정책 관리 |
| 메트릭 | GPU 사용률, 메모리 사용량, 온도, 전력, ECC 에러, NVLink 상태 |
| K8s 연동 | DCGM Exporter → Prometheus → Grafana 대시보드 |
| GPU Operator | GPU Operator가 DCGM Exporter를 자동 배포 |
제안서 활용: "DCGM + Prometheus + Grafana로 GPU 실시간 모니터링 대시보드 구축" → 운영환경 조성(3점)에 직접 대응.
참고: https://developer.nvidia.com/dcgm
🟡 알면 차별화되는 것 (기술 PT/면접에서 강점)
5. TensorRT-LLM — 추론 최적화 엔진
왜 중요한가: GeDAI 모델의 추론 성능을 최대화하려면 TensorRT-LLM이 필수. MLPerf 벤치마크도 TensorRT-LLM으로 실행됨.
| 핵심 기능 | 설명 |
|---|---|
| In-Flight Batching | 요청을 동적으로 배치 (Continuous Batching) |
| Paged KV Cache | vLLM의 PagedAttention과 유사 |
| 양자화 | FP8, FP4, INT8 양자화 → 처리량 2~4배 |
| Tensor Parallelism | 멀티 GPU 추론 자동 분배 |
| Speculative Decoding | 작은 모델이 초안, 큰 모델이 검증 |
학습 포인트:
- TensorRT-LLM vs vLLM 비교 (NVIDIA GPU에서는 TRT-LLM이 성능 우위)
- B300의 FP4 지원 → TensorRT-LLM의 FP4 양자화 활용
- MLPerf와의 관계 (MLPerf 제출은 TRT-LLM 기반)
참고: https://github.com/NVIDIA/TensorRT-LLM
6. NVIDIA Spectrum-X (이더넷 AI 네트워킹)
왜 중요한가: 800G Ethernet 구간이 단순한 스위치가 아니라 AI 최적화된 네트워크 패브릭임을 이해해야 함.
| 항목 | 내용 |
|---|---|
| Spectrum-X란 | NVIDIA의 AI 워크로드 최적화 Ethernet 플랫폼 |
| 구성 | Spectrum-4 스위치 + ConnectX-8 SuperNIC + NVIDIA DOCA SW |
| 특징 | 적응형 라우팅, RoCEv2 최적화, 텔레메트리, RDMA 가속 |
| vs InfiniBand | IB보다 저렴하면서 AI 워크로드에 최적화된 Ethernet |
왜 알아야 하는가:
- 이 사업의 800G 네트워크가 Spectrum-X 기반일 가능성
- "NVIDIA Reference Architecture 기반" = Spectrum-X 또는 Quantum-X800(IB) 중 하나
- 일반 Ethernet 스위치(Arista, Cisco)와의 차이를 설명할 수 있으면 차별화
참고: https://www.nvidia.com/en-us/networking/spectrumx/
7. UFM (Unified Fabric Manager)
왜 중요한가: 800G 네트워크 패브릭의 관리, 모니터링, 텔레메트리를 담당하는 소프트웨어.
| 항목 | 내용 |
|---|---|
| UFM이란 | InfiniBand/Ethernet 패브릭의 중앙 관리 플랫폼 |
| 기능 | 토폴로지 시각화, 장애 감지, 성능 모니터링, 적응형 라우팅 |
| SuperPOD 필수 | NVIDIA SuperPOD Reference Architecture에 UFM Appliance 포함 |
8. NVIDIA Base Command Manager (BCM)
왜 중요한가: DGX 클러스터의 관리/프로비저닝/모니터링 통합 플랫폼.
| 항목 | 내용 |
|---|---|
| BCM이란 | DGX 시스템의 프로비저닝, 클러스터 관리, 작업 스케줄링 |
| 기능 | OS 배포, 드라이버 관리, Slurm/K8s 연동, 모니터링 |
| 위치 | 관리서버에 설치 → DGX 노드를 중앙 관리 |
제안서 활용: "Base Command Manager로 DGX 클러스터 수명주기 관리(프로비저닝, 업데이트, 모니터링) 자동화" → 운영 방안에 포함.
9. PUE (Power Usage Effectiveness) & 데이터센터 전력 효율
왜 중요한가: 전력/냉각 산정에서 PUE를 정확히 이해하고, OO기관의 기존 데이터센터 PUE를 반영해야 함.
| 항목 | 내용 |
|---|---|
| PUE | 총 전력 / IT 전력. 1.0이면 완벽 (불가능), 1.2~1.5가 일반적 |
| 공공 데이터센터 | PUE 1.3~1.6 수준 |
| GPU 데이터센터 | 발열이 높아 냉각 비중 큼 → PUE 악화 가능 |
| 개선 | DLC(직접 수냉), 프리쿨링, 컨테인먼트 → PUE 1.1~1.2 가능 |
10. NVIDIA SuperPOD Reference Architecture
왜 중요한가: 제안요청서에 "NVIDIA Reference Architecture 기반"이 명시되어 있음. SuperPOD Ref Arch를 이해해야 정확한 네트워크 구성을 제안할 수 있음.
| 항목 | 내용 |
|---|---|
| SuperPOD | NVIDIA의 턴키 AI 데이터센터 인프라 솔루션 |
| 구성 | DGX 노드 + 네트워크(IB/Ethernet) + 스토리지 + 관리 |
| 최소 단위 | SU(Scalable Unit) = DGX 8대 + 네트워크 |
| 이 사업 | DGX 10대 → 약 1.25 SU 규모 |
학습 포인트:
- SuperPOD with DGX B300 Reference Architecture 문서 읽기
- 랙 배치, 케이블링, 전력, 냉각의 NVIDIA 공식 가이드
- 네트워크 토폴로지 (Rail-optimized topology)
참고: https://docs.nvidia.com/dgx-superpod/
🟢 알면 좋지만 필수는 아닌 것
11. Confidential Computing (기밀 컴퓨팅)
| 항목 | 내용 |
|---|---|
| 왜 관련 | 국방 환경에서 GPU 메모리 내 데이터 보호 요구 가능 |
| NVIDIA CC | H100/B200/B300에서 GPU TEE(Trusted Execution Environment) 지원 |
| 적용 | 멀티테넌시에서 수요기관 간 데이터 격리 강화 |
12. NVIDIA BlueField-3 DPU 심화
| 항목 | 내용 |
|---|---|
| 왜 관련 | DGX B300에 BlueField-3 DPU ×2 포함. 스토리지 가속 + 보안 격리 담당 |
| 기능 | NVMe-oF, GPUDirect Storage, 네트워크 가속, 암호화 |
| K8s 연동 | DOCA + Network Operator로 K8s에서 DPU 기능 활용 |
13. GPUDirect Storage
| 항목 | 내용 |
|---|---|
| 왜 관련 | NAS에서 학습 데이터를 GPU로 로딩하는 속도가 학습 성능에 영향 |
| 원리 | 스토리지 → GPU 메모리 직접 전송 (CPU 우회) |
| 요구 | NAS가 GPUDirect Storage를 지원해야 함 |
14. NVIDIA Magnum IO
| 항목 | 내용 |
|---|---|
| 왜 관련 | GPU Direct RDMA, NCCL, GPUDirect Storage를 포함하는 I/O 최적화 스택 |
| 구성 | NCCL + cuFile + GPUDirect RDMA + SHARP |
15. AI 모델 보안 — 프롬프트 인젝션, 모델 포이즈닝
| 항목 | 내용 |
|---|---|
| 왜 관련 | 국방 생성형 AI(GeDAI)의 보안 위협 이해 |
| 주제 | 프롬프트 인젝션, 모델 탈취, 학습 데이터 유출, 적대적 공격 |
| 방어 | 가드레일, 입출력 필터링, 모델 접근 제어 |
16. eBPF 기반 K8s 네트워킹/보안
| 항목 | 내용 |
|---|---|
| 왜 관련 | Cilium CNI가 eBPF 기반이며, 차세대 K8s 네트워킹의 핵심 |
| 장점 | kube-proxy 대체, L7 정책, 관찰성, 커널 수준 성능 |
| 보안 | Tetragon으로 런타임 보안 (Falco 대안) |
학습 우선순위 요약
| 우선순위 | 주제 | 추정 학습 시간 | 제안서 영향도 |
|---|---|---|---|
| 🔴 | NVAIE 라이선스 구조 | 2h | ✅ 비용에 직접 영향 |
| 🔴 | NVIDIA NIM | 2h | ✅ GeDAI 서빙 방안 |
| 🔴 | NCCL 집합통신 | 2h | ✅ 성능 검증 이해 |
| 🔴 | DCGM 모니터링 | 1h | ✅ 운영 방안 |
| 🟡 | TensorRT-LLM | 3h | 성능 최적화 |
| 🟡 | Spectrum-X / UFM | 2h | 네트워크 차별화 |
| 🟡 | Base Command Manager | 1h | 클러스터 관리 |
| 🟡 | SuperPOD Ref Arch | 3h | 네트워크/랙 설계 |
| 🟡 | PUE / 데이터센터 전력 | 1h | 전력 산정 정확도 |
| 🟢 | Confidential Computing | 1h | 국방 보안 차별화 |
| 🟢 | BlueField-3 DPU | 2h | 구성 이해 |
| 🟢 | GPUDirect Storage | 1h | 스토리지 성능 |
| 🟢 | AI 모델 보안 | 2h | 보안 방안 |
| 🟢 | eBPF / Cilium | 2h | 네트워크 보안 |
MLPerf처럼 "제안요청서에 없지만 쓰면 강력한" 포인트
| 주제 | 활용 방법 |
|---|---|
| MLPerf | "GPU 성능 100% 활용 증명"의 업계 표준 벤치마크로 제시 |
| NCCL all_reduce_perf | 800G 네트워크 실효 대역폭 검증 도구로 제시 |
| DCGM + Grafana | GPU 모니터링 대시보드를 제안서에 스크린샷으로 포함 |
| NIM | "GeDAI 모델을 NIM 컨테이너로 표준화하여 K8s 네이티브 배포" |
| Confidential Computing | 국방 환경의 데이터 보호를 GPU TEE로 강화 (경쟁사가 언급 안 할 가능성) |
| SuperPOD Ref Arch | "NVIDIA 공식 검증 아키텍처 100% 준수" (검수 증빙의 근거) |