Skip to main content

추가 학습 주제

제안요청서에 직접 안 나오지만, 알면 제안서 품질이 올라가고 기술 PT에서 차별화되는 것들


🔴 반드시 알아야 하는 것 (제안서에 직접 영향)

1. NVIDIA AI Enterprise (NVAIE) 라이선스 구조

왜 중요한가: 제안요청서에 "GPU 서버 가상화 SW(PaaS)"를 요구하는데, DGX B300에서 GPU Operator + MIG + 엔터프라이즈 컨테이너(NIM 등)를 사용하려면 NVAIE 라이선스가 필요할 수 있음. 라이선스 비용을 제안에 포함해야 하는지, DGX 구매에 번들인지 확인해야 함.

항목내용
NVAIE란GPU 드라이버, K8s Operator, NIM 마이크로서비스, Triton, TensorRT-LLM 등을 포함하는 엔터프라이즈 AI 플랫폼
라이선스GPU당 연간 구독 또는 영구 라이선스
DGX 번들 여부⚠️ B200/B300 DGX는 NVAIE가 번들이 아님 (H100은 5년 번들이었음) → 별도 구매 필요
필요 여부Bare Metal K8s에서 CUDA만 쓰면 불필요. NIM, vGPU, 엔터프라이즈 NGC 컨테이너를 쓰면 필요

학습 포인트:

  • NVAIE 구성 요소 (Infrastructure Layer vs Application Layer)
  • DGX B300에서 NVAIE 필요 여부 판단
  • NLS (NVIDIA License System) — 에어갭 환경(국방)에서 DLS(Delegated License Server) 구성

참고: https://docs.nvidia.com/ai-enterprise/index.html


2. NVIDIA NIM (NVIDIA Inference Microservices)

왜 중요한가: GeDAI 추론 서비스를 K8s 위에서 운영하려면 모델을 어떻게 서빙하는가가 핵심. NIM은 NVIDIA의 최적화된 추론 마이크로서비스로, 모델을 컨테이너 하나로 배포 가능.

항목내용
NIM이란사전 최적화된 LLM 추론 컨테이너. TensorRT-LLM 기반. docker run으로 바로 서빙
OpenAI 호환API가 OpenAI Chat Completions API와 호환 → 기존 앱 수정 최소
K8s 배포Helm Chart로 K8s에 배포, HPA로 오토스케일링
모델Llama, Mistral, 한국어 모델 등 NGC에서 제공

제안서 활용: "GeDAI 모델을 NIM 형태로 컨테이너화하여 K8s에 배포, 수요기관별 독립 네임스페이스에서 운영" → PaaS 요구사항에 직접 대응.

참고: https://docs.nvidia.com/nim/


3. NCCL (NVIDIA Collective Communications Library)

왜 중요한가: 10대 DGX 간 대규모 추론/학습에서 **GPU 간 집합통신(All-Reduce, All-Gather 등)**의 성능이 전체 시스템 성능을 좌우함. 800G 네트워크의 존재 이유가 바로 이것.

항목내용
NCCL이란GPU 간 집합통신 라이브러리. NVLink(노드 내) + 네트워크(노드 간)을 자동으로 활용
집합통신All-Reduce, All-Gather, Broadcast, Reduce-Scatter 등
토폴로지 인식NVLink, NVSwitch, PCIe, 네트워크를 인식하여 최적 경로 선택
GPU Direct RDMANIC에서 GPU 메모리로 직접 전송 → NCCL이 자동 활용

왜 알아야 하는가:

  • "GPU 성능 100% 활용 증명" 시, NCCL 벤치마크(all_reduce_perf)가 네트워크 성능 검증에 사용됨
  • MLPerf 벤치마크도 내부적으로 NCCL을 사용
  • 800G 네트워크의 실효 대역폭이 NCCL 벤치마크로 측정됨

참고: https://developer.nvidia.com/nccl


4. DCGM (Data Center GPU Manager)

왜 중요한가: 제안요청서에서 "GPU 사용현황 확인", "자원 모니터링" 요구. DCGM은 GPU 모니터링의 표준.

항목내용
DCGM이란GPU 상태 모니터링, 헬스 체크, 진단, 정책 관리
메트릭GPU 사용률, 메모리 사용량, 온도, 전력, ECC 에러, NVLink 상태
K8s 연동DCGM Exporter → Prometheus → Grafana 대시보드
GPU OperatorGPU Operator가 DCGM Exporter를 자동 배포

제안서 활용: "DCGM + Prometheus + Grafana로 GPU 실시간 모니터링 대시보드 구축" → 운영환경 조성(3점)에 직접 대응.

참고: https://developer.nvidia.com/dcgm


🟡 알면 차별화되는 것 (기술 PT/면접에서 강점)

5. TensorRT-LLM — 추론 최적화 엔진

왜 중요한가: GeDAI 모델의 추론 성능을 최대화하려면 TensorRT-LLM이 필수. MLPerf 벤치마크도 TensorRT-LLM으로 실행됨.

핵심 기능설명
In-Flight Batching요청을 동적으로 배치 (Continuous Batching)
Paged KV CachevLLM의 PagedAttention과 유사
양자화FP8, FP4, INT8 양자화 → 처리량 2~4배
Tensor Parallelism멀티 GPU 추론 자동 분배
Speculative Decoding작은 모델이 초안, 큰 모델이 검증

학습 포인트:

  • TensorRT-LLM vs vLLM 비교 (NVIDIA GPU에서는 TRT-LLM이 성능 우위)
  • B300의 FP4 지원 → TensorRT-LLM의 FP4 양자화 활용
  • MLPerf와의 관계 (MLPerf 제출은 TRT-LLM 기반)

참고: https://github.com/NVIDIA/TensorRT-LLM


6. NVIDIA Spectrum-X (이더넷 AI 네트워킹)

왜 중요한가: 800G Ethernet 구간이 단순한 스위치가 아니라 AI 최적화된 네트워크 패브릭임을 이해해야 함.

항목내용
Spectrum-X란NVIDIA의 AI 워크로드 최적화 Ethernet 플랫폼
구성Spectrum-4 스위치 + ConnectX-8 SuperNIC + NVIDIA DOCA SW
특징적응형 라우팅, RoCEv2 최적화, 텔레메트리, RDMA 가속
vs InfiniBandIB보다 저렴하면서 AI 워크로드에 최적화된 Ethernet

왜 알아야 하는가:

  • 이 사업의 800G 네트워크가 Spectrum-X 기반일 가능성
  • "NVIDIA Reference Architecture 기반" = Spectrum-X 또는 Quantum-X800(IB) 중 하나
  • 일반 Ethernet 스위치(Arista, Cisco)와의 차이를 설명할 수 있으면 차별화

참고: https://www.nvidia.com/en-us/networking/spectrumx/


7. UFM (Unified Fabric Manager)

왜 중요한가: 800G 네트워크 패브릭의 관리, 모니터링, 텔레메트리를 담당하는 소프트웨어.

항목내용
UFM이란InfiniBand/Ethernet 패브릭의 중앙 관리 플랫폼
기능토폴로지 시각화, 장애 감지, 성능 모니터링, 적응형 라우팅
SuperPOD 필수NVIDIA SuperPOD Reference Architecture에 UFM Appliance 포함

8. NVIDIA Base Command Manager (BCM)

왜 중요한가: DGX 클러스터의 관리/프로비저닝/모니터링 통합 플랫폼.

항목내용
BCM이란DGX 시스템의 프로비저닝, 클러스터 관리, 작업 스케줄링
기능OS 배포, 드라이버 관리, Slurm/K8s 연동, 모니터링
위치관리서버에 설치 → DGX 노드를 중앙 관리

제안서 활용: "Base Command Manager로 DGX 클러스터 수명주기 관리(프로비저닝, 업데이트, 모니터링) 자동화" → 운영 방안에 포함.


9. PUE (Power Usage Effectiveness) & 데이터센터 전력 효율

왜 중요한가: 전력/냉각 산정에서 PUE를 정확히 이해하고, OO기관의 기존 데이터센터 PUE를 반영해야 함.

항목내용
PUE총 전력 / IT 전력. 1.0이면 완벽 (불가능), 1.2~1.5가 일반적
공공 데이터센터PUE 1.3~1.6 수준
GPU 데이터센터발열이 높아 냉각 비중 큼 → PUE 악화 가능
개선DLC(직접 수냉), 프리쿨링, 컨테인먼트 → PUE 1.1~1.2 가능

10. NVIDIA SuperPOD Reference Architecture

왜 중요한가: 제안요청서에 "NVIDIA Reference Architecture 기반"이 명시되어 있음. SuperPOD Ref Arch를 이해해야 정확한 네트워크 구성을 제안할 수 있음.

항목내용
SuperPODNVIDIA의 턴키 AI 데이터센터 인프라 솔루션
구성DGX 노드 + 네트워크(IB/Ethernet) + 스토리지 + 관리
최소 단위SU(Scalable Unit) = DGX 8대 + 네트워크
이 사업DGX 10대 → 약 1.25 SU 규모

학습 포인트:

  • SuperPOD with DGX B300 Reference Architecture 문서 읽기
  • 랙 배치, 케이블링, 전력, 냉각의 NVIDIA 공식 가이드
  • 네트워크 토폴로지 (Rail-optimized topology)

참고: https://docs.nvidia.com/dgx-superpod/


🟢 알면 좋지만 필수는 아닌 것

11. Confidential Computing (기밀 컴퓨팅)

항목내용
왜 관련국방 환경에서 GPU 메모리 내 데이터 보호 요구 가능
NVIDIA CCH100/B200/B300에서 GPU TEE(Trusted Execution Environment) 지원
적용멀티테넌시에서 수요기관 간 데이터 격리 강화

12. NVIDIA BlueField-3 DPU 심화

항목내용
왜 관련DGX B300에 BlueField-3 DPU ×2 포함. 스토리지 가속 + 보안 격리 담당
기능NVMe-oF, GPUDirect Storage, 네트워크 가속, 암호화
K8s 연동DOCA + Network Operator로 K8s에서 DPU 기능 활용

13. GPUDirect Storage

항목내용
왜 관련NAS에서 학습 데이터를 GPU로 로딩하는 속도가 학습 성능에 영향
원리스토리지 → GPU 메모리 직접 전송 (CPU 우회)
요구NAS가 GPUDirect Storage를 지원해야 함

14. NVIDIA Magnum IO

항목내용
왜 관련GPU Direct RDMA, NCCL, GPUDirect Storage를 포함하는 I/O 최적화 스택
구성NCCL + cuFile + GPUDirect RDMA + SHARP

15. AI 모델 보안 — 프롬프트 인젝션, 모델 포이즈닝

항목내용
왜 관련국방 생성형 AI(GeDAI)의 보안 위협 이해
주제프롬프트 인젝션, 모델 탈취, 학습 데이터 유출, 적대적 공격
방어가드레일, 입출력 필터링, 모델 접근 제어

16. eBPF 기반 K8s 네트워킹/보안

항목내용
왜 관련Cilium CNI가 eBPF 기반이며, 차세대 K8s 네트워킹의 핵심
장점kube-proxy 대체, L7 정책, 관찰성, 커널 수준 성능
보안Tetragon으로 런타임 보안 (Falco 대안)

학습 우선순위 요약

우선순위주제추정 학습 시간제안서 영향도
🔴NVAIE 라이선스 구조2h✅ 비용에 직접 영향
🔴NVIDIA NIM2h✅ GeDAI 서빙 방안
🔴NCCL 집합통신2h✅ 성능 검증 이해
🔴DCGM 모니터링1h✅ 운영 방안
🟡TensorRT-LLM3h성능 최적화
🟡Spectrum-X / UFM2h네트워크 차별화
🟡Base Command Manager1h클러스터 관리
🟡SuperPOD Ref Arch3h네트워크/랙 설계
🟡PUE / 데이터센터 전력1h전력 산정 정확도
🟢Confidential Computing1h국방 보안 차별화
🟢BlueField-3 DPU2h구성 이해
🟢GPUDirect Storage1h스토리지 성능
🟢AI 모델 보안2h보안 방안
🟢eBPF / Cilium2h네트워크 보안

MLPerf처럼 "제안요청서에 없지만 쓰면 강력한" 포인트

주제활용 방법
MLPerf"GPU 성능 100% 활용 증명"의 업계 표준 벤치마크로 제시
NCCL all_reduce_perf800G 네트워크 실효 대역폭 검증 도구로 제시
DCGM + GrafanaGPU 모니터링 대시보드를 제안서에 스크린샷으로 포함
NIM"GeDAI 모델을 NIM 컨테이너로 표준화하여 K8s 네이티브 배포"
Confidential Computing국방 환경의 데이터 보호를 GPU TEE로 강화 (경쟁사가 언급 안 할 가능성)
SuperPOD Ref Arch"NVIDIA 공식 검증 아키텍처 100% 준수" (검수 증빙의 근거)