아키텍처 구성도
OO기관 통합AI데이터센터 GPU 서버 구축 — 물리/논리 설계
1. 전체 시스템 구성도
2. 물리 네트워크 구성도
네트워크 대역폭 정리
| 구간 | 속도 | 포트 수/서버 | 총 대역폭/서버 | 프로토콜 |
|---|---|---|---|---|
| DGX ↔ 컴퓨팅 LEAF | 800Gbps | 8 | 6.4Tbps | Ethernet (RoCEv2) / IB |
| DGX ↔ 서비스 LEAF | 200Gbps | 2 | 400Gbps | Ethernet |
| DGX ↔ OOB | 1/10Gbps | 1 | 10Gbps | Ethernet |
| NAS ↔ 서비스 LEAF | 200~400Gbps | — | — | Ethernet |
| 관리서버 ↔ 서비스 LEAF | 25Gbps | 2 | 50Gbps | Ethernet |
| 컴퓨팅 LEAF ↔ SPINE | 800Gbps | — | 1:1 Oversubscription | Ethernet |
| 서비스 LEAF ↔ SPINE | 400Gbps | — | — | Ethernet |
3. DGX B300 내부 구성도
4. 논리 아키텍처 — PaaS 플랫폼
5. GPU 자원 할당 모델
MIG 기반 멀티테넌시 (수요기관 할당 시)
6. 논리 네트워크 분리
| 영역 | 용도 | 대역폭 | 보안 |
|---|---|---|---|
| 서비스 | 사용자 접근, GeDAI API, Ingress | 200~400G | 방화벽, Ingress 정책 |
| 컴퓨팅 | GPU 간 RDMA 통신 | 800G | 격리 (외부 접근 차단) |
| 관리 | IPMI, BMC, 모니터링 | 1/10G | OOB 분리 |
| 스토리지 | NAS 데이터 접근 | 200~400G | 서비스 영역 경유 |
7. 랙 배치 개념도
┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐
│ Rack #1 │ │ Rack #2 │ │ Rack #3 │ │ Rack #4 │ │ Rack #5 │
│ │ │ │ │ │ │ │ │ │
│ DGX #1 │ │ DGX #3 │ │ DGX #5 │ │ DGX #7 │ │ DGX #9 │
│ (10U) │ │ (10U) │ │ (10U) │ │ (10U) │ │ (10U) │
│ │ │ │ │ │ │ │ │ │
│ DGX #2 │ │ DGX #4 │ │ DGX #6 │ │ DGX #8 │ │ DGX #10 │
│ (10U) │ │ (10U) │ │ (10U) │ │ (10U) │ │ (10U) │
│ │ │ │ │ │ │ │ │ │
│ PDU │ │ PDU │ │ PDU │ │ PDU │ │ PDU │
│ L2 SW │ │ L2 SW │ │ L2 SW │ │ L2 SW │ │ L2 SW │
└─────────┘ └─────────┘ └─────────┘ └─────────┘ └─────────┘
┌─────────┐ ┌─────────┐ ┌─────────┐
│ NW Rack │ │ NW Rack │ │ Mgmt │
│ #1 │ │ #2 │ │ Rack │
│ │ │ │ │ │
│ COM │ │ COM │ │ Master │
│ SPINE │ │ LEAF×2 │ │ ×3 │
│ │ │ │ │ │
│ SVC │ │ SVC │ │ OOB SW │
│ SPINE │ │ LEAF×2 │ │ │
│ │ │ │ │ NAS │
│ OOB │ │ │ │ Storage │
└─────────┘ └─────────┘ └─────────┘
DGX B300은 10U이므로 42U 랙에 2대 + PDU + 부속 장비 가능. 5개 랙에 10대 배치. 전력: DGX 1대 ≈ 6
8kW → 랙당 1216kW → 고밀도 냉각 필수 (핫/콜드 아일, 컨테인먼트)