Skip to main content

기술 검증 이슈 목록

기존 5개 문서의 기술적 오류, 미확인 사항, 제안서 작성 전 반드시 확인해야 할 항목


🔴 수정 필요 (오류)

이슈 1: DGX B300 CPU — Grace가 아니라 Intel Xeon

항목기존 문서 (오류)실제
CPUGrace CPU (ARM)Intel Xeon Platinum 6776P (x86)
메모리LPDDR5XDDR5

근거: DGX B300 서버 버전은 x86 CPU(Intel Xeon)를 사용함. Grace CPU를 사용하는 것은 GB300 (Grace-Blackwell 수퍼칩) 구성임. 제안요청서의 "2P, 96코어, DDR5 6400MT/s" 스펙이 Intel Xeon Platinum 6776P (96코어)와 정확히 일치함.

영향 받는 문서:

  • oo-agency-ai-datacenter-study.md — DGX B300 시스템 구성 테이블
  • oo-agency-architecture.md — DGX 내부 구성도
  • oo-agency-power-cooling.md — CPU 전력 산정

혼동하기 쉬운 이유:

  • DGX B300 (서버) = Intel Xeon + B300 SXM GPU = x86 + DDR5
  • GB300 (수퍼칩) = Grace CPU + B300 GPU = ARM + LPDDR5X
  • DGX Station GB300 (워크스테이션) = Grace + B300 = ARM + LPDDR5X
  • GB300 NVL72 (랙) = Grace + B300 × 72 = ARM

제안요청서는 **"DGX B300"**을 명시하고 DDR5를 요구하므로, x86(Intel Xeon) 기반 DGX B300 서버가 맞음.


이슈 2: 냉각 방식 — "공냉 가능"이라고 썼지만 불확실

항목기존 문서확인 필요
냉각"AC PSU 버전은 공냉으로도 운영 가능"⚠️ 대부분의 소스가 DLC(직접 수냉) 필수라고 함

근거:

  • GPU TDP 1,400W × 8 = 11.2kW (GPU만) → 공냉으로 이 열을 처리하기 매우 어려움
  • Spheron: "air cooling isn't viable. The DGX B300 and HGX B300 require direct liquid cooling (DLC)"
  • Introl: "Requires liquid cooling"
  • 하지만 NVIDIA DGX B300 User Guide에는 "AC/PDU" 버전이 존재하며, AC 버전의 경우 고밀도 팬으로 공냉 설계가 포함되어 있을 수 있음

제안서에서의 리스크:

  • 만약 DGX B300이 DLC 필수라면, 기존 공공 데이터센터에 수냉 인프라가 없을 가능성이 높음
  • 수냉 인프라(CDU, 배관) 추가 비용이 상당할 수 있음
  • 제안요청서에는 "컨테인먼트" 언급은 있지만 수냉 관련 언급은 없음

→ NVIDIA 공식 확인 필수. DGX B300 AC PSU 버전이 공냉만으로 운영 가능한지, 아니면 DLC도 필요한지.


이슈 3: BlueField-3 DPU 누락

항목기존 문서실제
DPU언급 없음DGX B300에 BlueField-3 DPU ×2 포함

DGX B300은 ConnectX-8 NIC 외에도 BlueField-3 DPU 2개를 포함함. DPU는 스토리지 가속, 인프라 관리, 보안 격리를 담당. 이 부분이 구성도와 학습 자료에 빠져있음.


🟡 확인 필요 (미검증)

이슈 4: MLPerf B300 결과 존재 여부

B300은 2026년 1월에 출하되기 시작했으므로, MLPerf 제출 결과가 아직 없을 수 있음.

  • MLPerf Inference v5.1 (2025.09): B200 결과는 있을 수 있지만 B300은 출시 전
  • 차기 MLPerf 라운드 (2026 상반기)에 B300 결과가 포함될 수 있음

확인: MLCommons 대시보드에서 B300 결과 검색. 없으면 B200 결과를 기반으로 추정치를 제시하고, "B300은 B200 대비 ~1.5배 FP4 성능"이라는 NVIDIA 공식 수치를 인용하는 방식으로 대응.

이슈 5: MIG 지원 여부

B300이 MIG(Multi-Instance GPU)를 지원하는지 공식 확인 필요. B200은 MIG를 지원하지만, B300의 MIG 프로파일(분할 가능한 구성)이 다를 수 있음.

→ DGX B300 User Guide 또는 NVIDIA 영업에 확인.

이슈 6: PSU 사양 상세

제안요청서: "3200W 이상 Titanium 효율, 6+6 중복(N+N)" NVIDIA DGX B300 User Guide: "12 power supplies for N+N power redundancy"

12개 PSU에서 6+6 = N+N. 그런데 각 PSU가 3,200W인지, 아니면 시스템 총 용량이 다른 값인지 확인 필요.

  • 시스템 피크 ~14.5kW, 6개 PSU로 커버 = PSU당 ~2,417W 필요
  • 3,200W × 6 = 19.2kW > 14.5kW → 여유 있음
  • 하지만 실제 PSU 사양이 3,200W인지는 NVIDIA 데이터시트로 확인

이슈 7: 800G Ethernet vs InfiniBand 실제 선택

제안요청서: "800Gbps InfiniBand / Ethernet 지원(VPI 모드)" 컴퓨팅 네트워크: "800Gbps급 스위치로 구성"

VPI(Virtual Protocol Interconnect)는 IB와 Ethernet 모두 지원하지만, 실제 어떤 프로토콜을 선택하느냐에 따라 스위치 장비가 다름:

  • InfiniBand → NVIDIA Quantum-X800 스위치 필요
  • Ethernet → NVIDIA Spectrum-4 또는 Arista/Cisco 800G 스위치

제안요청서의 "NVIDIA Reference Architecture"가 IB 기반인지 Ethernet 기반인지에 따라 장비 선정이 달라짐.

→ NVIDIA SuperPOD Reference Architecture 문서에서 확인 필요. (위 검색에서 이미 "NVIDIA Quantum-X800 InfiniBand switching" 기반 Ref Arch가 존재하는 것을 확인)

이슈 8: 시스템 전력 정확한 수치

소스DGX B300 시스템 전력
Flopper.io14.5kW
Spheron~14kW (peak)
NVIDIA SuperPOD Ref Arch랙당 ~56kW (4대 기준) = 대당 ~14kW
우리 문서14.5kW

소스마다 약간 다름. 14~14.5kW 범위. 전력 산정서에는 **14.5kW(보수적 상한)**을 유지하되, NVIDIA 공식 데이터시트의 정확한 "Max System Power" 확인 필요.


🟢 추가 조사 권장

이슈 9: 선행사업('25년) 아키텍처

'25년에 구축된 GeDAI 플랫폼의 기존 구성을 알아야:

  • 기존 GPU 모델 (H100? H200? A100?)
  • 기존 PaaS 플랫폼 (OpenShift? Rancher? 다른 것?)
  • 기존 네트워크 구성 (IB? Ethernet? 속도?)
  • 기존 스토리지

→ 현장 방문 열람에서 확인. 기존 환경과의 호환성이 제안요청서의 반복적 요구사항이므로, 선행사업 구성을 모르면 제안서 완성도가 떨어짐.

이슈 10: PaaS 후보 확정

OpenShift가 유력하다고 분석했지만, 선행사업에서 이미 다른 플랫폼을 사용하고 있다면 기존 플랫폼과의 호환성이 우선될 수 있음.

제안요청서 ECR-01에서 OS 지원 항목에 "RHOCP, VMware, Rancher, Xen, KVM 등"을 나열한 것은 "이 중 하나를 선택"이 아니라 "이 모든 것을 지원하는 서버"를 의미. PaaS(ECR-09)는 별도.


수정 작업 요약

우선순위이슈액션
🔴 즉시CPU: Grace → Intel Xeon문서 3개 수정
🔴 즉시냉각: DLC 필수 여부NVIDIA 확인 후 전력/냉각 문서 수정
🔴 즉시BlueField-3 DPU구성도, 학습자료에 추가
🟡 확인MLPerf B300 결과MLCommons 대시보드 확인
🟡 확인MIG 지원NVIDIA 문서 확인
🟡 확인800G IB vs EthernetNVIDIA Ref Arch 문서 확인
🟡 확인정확한 시스템 전력NVIDIA 데이터시트
🟢 열람선행사업 아키텍처현장 방문 열람
🟢 열람PaaS 기존 플랫폼현장 방문 열람