기술 검증 이슈 목록
기존 5개 문서의 기술적 오류, 미확인 사항, 제안서 작성 전 반드시 확인해야 할 항목
🔴 수정 필요 (오류)
이슈 1: DGX B300 CPU — Grace가 아니라 Intel Xeon
| 항목 | 기존 문서 (오류) | 실제 |
|---|---|---|
| CPU | Grace CPU (ARM) | Intel Xeon Platinum 6776P (x86) |
| 메모리 | LPDDR5X | DDR5 |
근거: DGX B300 서버 버전은 x86 CPU(Intel Xeon)를 사용함. Grace CPU를 사용하는 것은 GB300 (Grace-Blackwell 수퍼칩) 구성임. 제안요청서의 "2P, 96코어, DDR5 6400MT/s" 스펙이 Intel Xeon Platinum 6776P (96코어)와 정확히 일치함.
영향 받는 문서:
oo-agency-ai-datacenter-study.md— DGX B300 시스템 구성 테이블oo-agency-architecture.md— DGX 내부 구성도oo-agency-power-cooling.md— CPU 전력 산정
혼동하기 쉬운 이유:
- DGX B300 (서버) = Intel Xeon + B300 SXM GPU = x86 + DDR5
- GB300 (수퍼칩) = Grace CPU + B300 GPU = ARM + LPDDR5X
- DGX Station GB300 (워크스테이션) = Grace + B300 = ARM + LPDDR5X
- GB300 NVL72 (랙) = Grace + B300 × 72 = ARM
제안요청서는 **"DGX B300"**을 명시하고 DDR5를 요구하므로, x86(Intel Xeon) 기반 DGX B300 서버가 맞음.
이슈 2: 냉각 방식 — "공냉 가능"이라고 썼지만 불확실
| 항목 | 기존 문서 | 확인 필요 |
|---|---|---|
| 냉각 | "AC PSU 버전은 공냉으로도 운영 가능" | ⚠️ 대부분의 소스가 DLC(직접 수냉) 필수라고 함 |
근거:
- GPU TDP 1,400W × 8 = 11.2kW (GPU만) → 공냉으로 이 열을 처리하기 매우 어려움
- Spheron: "air cooling isn't viable. The DGX B300 and HGX B300 require direct liquid cooling (DLC)"
- Introl: "Requires liquid cooling"
- 하지만 NVIDIA DGX B300 User Guide에는 "AC/PDU" 버전이 존재하며, AC 버전의 경우 고밀도 팬으로 공냉 설계가 포함되어 있을 수 있음
제안서에서의 리스크:
- 만약 DGX B300이 DLC 필수라면, 기존 공공 데이터센터에 수냉 인프라가 없을 가능성이 높음
- 수냉 인프라(CDU, 배관) 추가 비용이 상당할 수 있음
- 제안요청서에는 "컨테인먼트" 언급은 있지만 수냉 관련 언급은 없음
→ NVIDIA 공식 확인 필수. DGX B300 AC PSU 버전이 공냉만으로 운영 가능한지, 아니면 DLC도 필요한지.
이슈 3: BlueField-3 DPU 누락
| 항목 | 기존 문서 | 실제 |
|---|---|---|
| DPU | 언급 없음 | DGX B300에 BlueField-3 DPU ×2 포함 |
DGX B300은 ConnectX-8 NIC 외에도 BlueField-3 DPU 2개를 포함함. DPU는 스토리지 가속, 인프라 관리, 보안 격리를 담당. 이 부분이 구성도와 학습 자료에 빠져있음.
🟡 확인 필요 (미검증)
이슈 4: MLPerf B300 결과 존재 여부
B300은 2026년 1월에 출하되기 시작했으므로, MLPerf 제출 결과가 아직 없을 수 있음.
- MLPerf Inference v5.1 (2025.09): B200 결과는 있을 수 있지만 B300은 출시 전
- 차기 MLPerf 라운드 (2026 상반기)에 B300 결과가 포함될 수 있음
확인: MLCommons 대시보드에서 B300 결과 검색. 없으면 B200 결과를 기반으로 추정치를 제시하고, "B300은 B200 대비 ~1.5배 FP4 성능"이라는 NVIDIA 공식 수치를 인용하는 방식으로 대응.
이슈 5: MIG 지원 여부
B300이 MIG(Multi-Instance GPU)를 지원하는지 공식 확인 필요. B200은 MIG를 지원하지만, B300의 MIG 프로파일(분할 가능한 구성)이 다를 수 있음.
→ DGX B300 User Guide 또는 NVIDIA 영업에 확인.
이슈 6: PSU 사양 상세
제안요청서: "3200W 이상 Titanium 효율, 6+6 중복(N+N)" NVIDIA DGX B300 User Guide: "12 power supplies for N+N power redundancy"
12개 PSU에서 6+6 = N+N. 그런데 각 PSU가 3,200W인지, 아니면 시스템 총 용량이 다른 값인지 확인 필요.
- 시스템 피크 ~14.5kW, 6개 PSU로 커버 = PSU당 ~2,417W 필요
- 3,200W × 6 = 19.2kW > 14.5kW → 여유 있음
- 하지만 실제 PSU 사양이 3,200W인지는 NVIDIA 데이터시트로 확인
이슈 7: 800G Ethernet vs InfiniBand 실제 선택
제안요청서: "800Gbps InfiniBand / Ethernet 지원(VPI 모드)" 컴퓨팅 네트워크: "800Gbps급 스위치로 구성"
VPI(Virtual Protocol Interconnect)는 IB와 Ethernet 모두 지원하지만, 실제 어떤 프로토콜을 선택하느냐에 따라 스위치 장비가 다름:
- InfiniBand → NVIDIA Quantum-X800 스위치 필요
- Ethernet → NVIDIA Spectrum-4 또는 Arista/Cisco 800G 스위치
제안요청서의 "NVIDIA Reference Architecture"가 IB 기반인지 Ethernet 기반인지에 따라 장비 선정이 달라짐.
→ NVIDIA SuperPOD Reference Architecture 문서에서 확인 필요. (위 검색에서 이미 "NVIDIA Quantum-X800 InfiniBand switching" 기반 Ref Arch가 존재하는 것을 확인)
이슈 8: 시스템 전력 정확한 수치
| 소스 | DGX B300 시스템 전력 |
|---|---|
| Flopper.io | 14.5kW |
| Spheron | ~14kW (peak) |
| NVIDIA SuperPOD Ref Arch | 랙당 ~56kW (4대 기준) = 대당 ~14kW |
| 우리 문서 | 14.5kW |
소스마다 약간 다름. 14~14.5kW 범위. 전력 산정서에는 **14.5kW(보수적 상한)**을 유지하되, NVIDIA 공식 데이터시트의 정확한 "Max System Power" 확인 필요.
🟢 추가 조사 권장
이슈 9: 선행사업('25년) 아키텍처
'25년에 구축된 GeDAI 플랫폼의 기존 구성을 알아야:
- 기존 GPU 모델 (H100? H200? A100?)
- 기존 PaaS 플랫폼 (OpenShift? Rancher? 다른 것?)
- 기존 네트워크 구성 (IB? Ethernet? 속도?)
- 기존 스토리지
→ 현장 방문 열람에서 확인. 기존 환경과의 호환성이 제안요청서의 반복적 요구사항이므로, 선행사업 구성을 모르면 제안서 완성도가 떨어짐.
이슈 10: PaaS 후보 확정
OpenShift가 유력하다고 분석했지만, 선행사업에서 이미 다른 플랫폼을 사용하고 있다면 기존 플랫폼과의 호환성이 우선될 수 있음.
제안요청서 ECR-01에서 OS 지원 항목에 "RHOCP, VMware, Rancher, Xen, KVM 등"을 나열한 것은 "이 중 하나를 선택"이 아니라 "이 모든 것을 지원하는 서버"를 의미. PaaS(ECR-09)는 별도.
수정 작업 요약
| 우선순위 | 이슈 | 액션 |
|---|---|---|
| 🔴 즉시 | CPU: Grace → Intel Xeon | 문서 3개 수정 |
| 🔴 즉시 | 냉각: DLC 필수 여부 | NVIDIA 확인 후 전력/냉각 문서 수정 |
| 🔴 즉시 | BlueField-3 DPU | 구성도, 학습자료에 추가 |
| 🟡 확인 | MLPerf B300 결과 | MLCommons 대시보드 확인 |
| 🟡 확인 | MIG 지원 | NVIDIA 문서 확인 |
| 🟡 확인 | 800G IB vs Ethernet | NVIDIA Ref Arch 문서 확인 |
| 🟡 확인 | 정확한 시스템 전력 | NVIDIA 데이터시트 |
| 🟢 열람 | 선행사업 아키텍처 | 현장 방문 열람 |
| 🟢 열람 | PaaS 기존 플랫폼 | 현장 방문 열람 |