요구사항 추적표
제안요청서 전체 요구사항 → 제안 대응 매핑
1. 공통 요구사항 (CMR)
| 코드 | 요구사항명 | 핵심 요구 내용 | 제안 대응 방향 | 평가 연결 |
|---|---|---|---|---|
| CMR-01 | 전략 및 수행방안 | ① DIDC 환경 고려 추진전략 ② GPU 성능 검증 전략 ③ 가상자원(VM, Pod, GPU) 구성방안 ④ GeDAI 이전 기술지원 ⑤ 사용자 지침서 | ① B300 클러스터 + PaaS 플랫폼 통합 전략 ② MLPerf 기반 성능 검증 방법론 제시 ③ K8s + GPU Operator + MIG 멀티테넌시 ④ GeDAI 컨테이너 마이그레이션 절차 ⑤ AI 모델 탑재/자원할당/장애조치 매뉴얼 | 추진전략(4점) |
| CMR-02 | 조사 및 분석 | ① HW/SW/네트워크/보안/데이터 환경 조사 ② 선행 GeDAI 아키텍처 분석 ③ 성능측정 도구, 방법 제시 ④ 전력/발열/냉방 조사 | ① 현장 방문 기반 AS-IS 분석 체크리스트 ② GeDAI 플랫폼 인프라 아키텍처 분석 ③ MLPerf Inference + TensorRT-LLM ④ DGX B300 전력/냉각 산정서 | 공통(3점) |
| CMR-03 | 상세 설계 | ① GPU 인프라 물리/논리 설계 ② 서버/스토리지/네트워크/백업 설계 ③ 가상화 SW, 보안/관제 SW 설계 ④ 랙/케이블/분전반 설계 ⑤ DIDC 정책 준수 | ① 물리/논리 아키텍처 구성도 ② 3-tier 네트워크(서비스/컴퓨팅/관리) 설계 ③ OpenShift + GPU Operator 설계 ④ 랙 배치도, 선번장, 케이블 매트릭스 ⑤ DIDC 명명규칙, 보안정책 반영 | 공통(3점, 필수O) |
| CMR-04 | 설치 및 구축 | ① HW/SW 설치방안 ② 설치결과 검증 ③ SW 직접구매 통합관리 ④ 성능측정 기술지원 ⑤ GeDAI 데이터 이관 지원 | ① 단계별 설치 WBS ② 항목별 체크리스트 ③ SW 직접구매 사업자 협업 프로세스 ④ MLPerf/자체 벤치마크 지원 ⑤ 컨테이너 이미지 마이그레이션 | 공통(3점, 필수O) |
| CMR-05 | 시험평가 | ① 시험평가 계획/수행 ② GPU 성능 100% 활용 증명 (학습/추론 성능 수치 + 시연) ③ AI 모델 반입 계획 (보안검토 1개월+) ④ 자원할당 절차 검증 ⑤ 보안취약점 점검 ⑥ CC인증 유효기간 1년+ | ① 시험평가 시나리오 기반 계획서 ② MLPerf Inference (Llama 2-70B) + 자체 AI 모델 시연 → 처리량/지연 수치 제시 ③ AI 모델 반입 일정 WBS 포함 (M+2~3) ④ K8s 기반 자원할당 시나리오 ⑤ 국방 취약점 지침 준수 점검 ⑥ 보안 SW CC인증 확인서 첨부 | 시험평가(4점, 필수O) + 보안(2점, 필수O) |
| CMR-06 | 기반운영환경 도입 공통 | ① 반입 경로/동선 ② 자산등록 선행 ③ 보안취약점 제거 ④ 망분리 ⑤ 서버보안 정책 적용 ⑥ SIEM 연동 ⑦ 호환성 검증 ⑧ 관제/보안 SW 설치 ⑨ 불변 OS는 보안SW 설치 제외 | ① 반입 경로도 + 보양 계획 ② DIDC 자산관리시스템 등록 절차 ③ DIDC 취약점 진단체계 Agent 설치 ④ 네트워크 영역 분리 설계 ⑤ 서버보안 정책 Config ⑥ 로그정의서, 로그포맷 제출 ⑦ 기존 장비 호환성 테스트 계획 ⑧ 관제/보안 SW 설치 대상 목록 ⑨ RHCOS(불변OS) 적용 노드 구분 | 기반운영환경(4점, 필수O) |
| CMR-07 | DIDC 자원 Pool 최적화 | ① 기존/신규 자원 Pool 통합 ② 재배치/재구성 ③ 케이블 재구성 ④ 상면 최적화 ⑤ AI 모델 전력화 기술지원 | ① 기존 Pool 현황 분석 → 통합 설계 ② 랙 재배치 계획 ③ 케이블 재포설 계획 ④ 불용 자원 정리 ⑤ 안정화/하자보수 기간 기술지원 계획 | 인프라 최적화(3점, 필수O) |
| CMR-08 | 케이블/컨테인먼트/Rack | ① KS 인증 전원케이블 ② OM4 광케이블 ③ Cat6A UTP ④ 800G 구간: NVIDIA Ref Arch 규격 ⑤ 분전반 공사 시 전기안전관리자 | ① 자재 규격 명세표 ② 컴퓨팅 네트워크: MPO 케이블 + NVIDIA 규격 Transceiver ③ 표준 Rack GPU용 Depth 변경 ④ 분전반 설계/전기안전관리자 선임 계획 | 인프라 최적화(3점, 필수O) |
2. 기반운영환경 도입 (ECR)
2.1 GPU 서버 & 관리서버
| 코드 | 요구사항명 | 수량 | 핵심 스펙 | 제안 대응 | 주의사항 |
|---|---|---|---|---|---|
| ECR-01 | GPU 서버 | 10EA | NVIDIA B300 SXM 8-GPU (288GB HBM3e/GPU) / CPU 2P 96코어+ / RAM 2,048GB DDR5 / ConnectX-8 ×8 (800G VPI) / 서비스 NIC 200G ×2 / OOB 1/10G ×1 / NVMe 3.84TB ×4 / PSU 3200W+ Titanium 6+6 / OS: RHOCP, VMware, Rancher, Xen, KVM 지원 | DGX B300 시스템 제안 / NVIDIA Reference Architecture 준수 / ConnectX-8 VPI 모드(800G Ethernet) / 서비스 LEAF 200G 연결 / OOB 스위치 연결 / 이중화 구성 | ⚠️ DGX B300 명시 — 대체 불가 / NIC 물리적 이중화 필수 / USB/LAN 물리적 차단 장치 / 신규 PaaS 풀 구성품 + Guest OS 포함 |
| ECR-02 | 클라우드 관리서버 | - | CPU 2P 32코어+ / RAM 512GB+ / NIC 25G ×2 / NVMe 1.92TB ×2 / OS: Windows/Linux 지원 | K8s Master Node / Control Plane HA (3노드 권장) | PaaS 풀 구성품 + Guest OS 포함 |
2.2 네트워크
| 코드 | 요구사항명 | 핵심 스펙 | 제안 대응 | 주의사항 |
|---|---|---|---|---|
| ECR-03 | (서비스) SPINE | 400GE 24포트+ / L3 라우팅 / BGP, OSPF, VXLAN | 400G 데이터센터 스위치 | ⚠️ BMT 성능 검증 필수 |
| ECR-04 | (서비스) LEAF | 400GE 16포트+ / 25G 48포트+ | NAS: 200~400G 연결 / GPU서버: 200G 서비스 연결 | ⚠️ BMT 성능 검증 필수 / SPINE과 400G+ 연결 |
| ECR-05 | (관리) OOB | 1/10G 관리 스위치 | GPU서버/관리서버 IPMI/BMC 연결 | |
| ECR-06 | (컴퓨팅) SPINE | 800GE 64포트+ / 대규모 AI/HPC 패브릭 / 저지연 설계 | ✅ GPU Direct RDMA 지원 / NVIDIA Ref Arch 기반 | ⚠️ 핵심 장비 / NVIDIA 검증 증빙 필수 |
| ECR-07 | (컴퓨팅) LEAF | 800GE 64포트+ / 저지연 / 하위 400G 호환 | GPU서버 ConnectX-8과 800G 연결 | ⚠️ DGX B300 공식 사양(ConnectX-8 VPI) 기반 / SPINE과 800G+ 연결 |
2.3 스토리지 / 가상화 / 보안
| 코드 | 요구사항명 | 핵심 스펙 | 제안 대응 | 주의사항 |
|---|---|---|---|---|
| ECR-08 | 고속 NAS | NAS 스토리지 / 서비스 LEAF와 200~400G 연결 | AI 학습 데이터 + 모델 저장용 / CSI 드라이버로 K8s PV 연동 | |
| ECR-09 | GPU 가상화 SW (PaaS) | 10EA (워커노드) / 31개 세부 요구 (아래 별도 표) | ✅ OpenShift 또는 Rancher + GPU Operator | ⚠️ Istio, Knative, GitOps 명시 / 불변 OS(NIST 800-190) / 엔터프라이즈 Linux 필수 / 커뮤니티 OS 배제 |
| ECR-10 | 백업 라이선스 | 증설 | 기존 백업시스템 라이선스 추가 | |
| ECR-11 | 관제 및 보안 SW | 신규 + 증설 | EMS, 서버보안, 계정관리, DB접근제어, DB암호화, APPM, SIEM, 바이러스방역 등 | ⚠️ CC인증 유효기간 1년+ |
| ECR-12 | 표준 Rack 및 기반환경 | 컨테인먼트, 랙, L2 스위치, 케이블 트레이, 분전반 | GPU용 Rack(Depth/PDU 변경 가능) |
3. ECR-09 GPU 가상화 SW (PaaS) — 31개 세부 요구사항 추적
| # | 요구사항 | OpenShift 대응 | Rancher 대응 | 비고 |
|---|---|---|---|---|
| 1 | Containerd 기반 컨테이너 관리 | ✅ CRI-O (OCI 호환) | ✅ Containerd | CRI-O도 OCI 표준 |
| 2 | HW 비종속 엔터프라이즈 PaaS | ✅ | ✅ | |
| 3 | 다국어(영어, 한국어) 대시보드 | ✅ | ✅ (Rancher UI) | |
| 4 | 표준 이미지 저장소 | ✅ (내장 Registry) | ⚠️ Harbor 별도 | |
| 5 | Operator 배포 자동화 | ✅ (OperatorHub 내장) | ✅ (Helm/Operator) | |
| 6 | 24/365 기술지원 체계 | ✅ Red Hat | ✅ SUSE | |
| 7 | 엔터프라이즈 Linux 포함 (커뮤니티 배제) | ✅ RHEL/RHCOS | ✅ SLES/SLE Micro | ⚠️ Ubuntu, CentOS 불가 |
| 8 | 자동설치 기능 | ✅ (IPI/UPI) | ✅ | |
| 9 | 관리 시스템 이중화 | ✅ (3 Master HA) | ✅ | |
| 10 | 무중단 노드 증설 | ✅ | ✅ | |
| 11 | Auto Scale out/in | ✅ (HPA, CA) | ✅ | |
| 12 | SDN Plug-In | ✅ (OVN-K, Calico) | ✅ (Canal, Calico, Cilium) | |
| 13 | DockerHub, Git 연계 | ✅ | ✅ | |
| 14 | 멀티 테넌시 | ✅ (Project/Namespace) | ✅ (Namespace) | |
| 15 | Template 기능 | ✅ (Template 내장) | ✅ (Fleet/Helm) | |
| 16 | 이력관리 및 롤백 | ✅ (Deployment) | ✅ | |
| 17 | 외부 스토리지 할당 | ✅ (PV/PVC, CSI) | ✅ | |
| 18 | 컨테이너 이동 시 스토리지 자동연결 | ✅ (PVC 리바인딩) | ✅ | |
| 19 | Istio 기반 서비스 메시 | ✅ (OpenShift Service Mesh) | ⚠️ Istio 수동 설치 | ✅ OpenShift 유리 |
| 20 | Knative 서버리스 | ✅ (OpenShift Serverless) | ⚠️ Knative 수동 설치 | ✅ OpenShift 유리 |
| 21 | AI/ML GPU 연계 | ✅ (GPU Operator) | ✅ (GPU Operator) | |
| 22 | Immutable Host OS | ✅ RHCOS | ✅ SLE Micro | |
| 23 | 버전 업그레이드 Path 제공 | ✅ (OCP Lifecycle) | ✅ | |
| 24 | GitOps 자동배포 | ✅ (OpenShift GitOps = ArgoCD) | ⚠️ Fleet 또는 ArgoCD 별도 | ✅ OpenShift 유리 |
| 25 | 멀티 클러스터 관리 | ✅ (ACM) | ✅ (Rancher 핵심) | |
| 26 | 컨테이너 네이티브 보안 | ✅ (ACS = StackRox) | ⚠️ 별도 도입 | ✅ OpenShift 유리 |
| 27 | 컨테이너 네이티브 스토리지 | ✅ (ODF = Ceph) | ⚠️ Longhorn | |
| 28 | 이미지 재해복구 | ✅ (OADP) | ⚠️ Velero | |
| 29 | 컨테이너 전용 Host OS (NIST 800-190) | ✅ RHCOS (불변, 공격표면 최소화) | ✅ SLE Micro | |
| 30 | Bare Metal LoadBalancer | ✅ (MetalLB 내장) | ✅ (MetalLB) | |
| 31 | Node Auto Scale in/out | ✅ (Machine API) | ✅ (Cluster Autoscaler) |
종합: OpenShift가 31개 요구 중 네이티브 충족 비율이 높음 (Istio, Knative, GitOps, 보안, Registry가 내장)
4. 사업관리 (PMR) 요구사항
| 코드 | 요구사항명 | 핵심 | 평가 연결 |
|---|---|---|---|
| PMR-01 | 사업수행 일반 | 사업수행계획서, WBS, 마일스톤 | 사업관리(3점) |
| PMR-02 | 품질관리 | 분야별 품질관리, 산출물 관리 | 품질관리(2점) |
| PMR-03 | 형상관리 | 형상관리 기준/절차, 요구사항 추적 | 형상관리(2점) |
| PMR-04 | 위험관리 | 위험요소 식별 및 대응방안 | 위험관리(3점) |
| PMR-05 | 조직 및 인력관리 | PM 자격, 투입 인력 | 인력(별도) |
| PMR-06 | 진척관리 | WBS 진척, 지연 시 대응 | 진척관리(2점) |
| PMR-07 | 의사소통관리 | 보고체계, 선행사업 업체 협력 | 의사소통(2점) |
| PMR-08 | 하도급관리 | 하도급 관리방안 | — |
| PMR-09 | 보안관리 | 군사자료 유출방지, 분야별 보안 | 보안관리(2점) |
| PMR-10 | 안전보건 관리 | 안전보건 수준평가 | 안전보건(2점) |
| PMR-11 | 납품검수 | 검수방안 | 납품검수(3점) |
5. 사업지원 (PSR) 요구사항
| 코드 | 요구사항명 | 핵심 | 평가 연결 |
|---|---|---|---|
| PSR-01 | 교육훈련 | 교육계획, 대상, 내용 | 교육훈련(3점, 필수O) |
| PSR-02 | 운영환경 조성 | 관제환경, 상면 조성 | 운영환경(3점, 필수O) |
| PSR-03 | 안정화지원 | 조기 안정화, HW/SW 기술지원 | 안정화(4점, 필수O) |
| PSR-04 | 하자보수 | 기간/인력/방법, 제조사 수준 서비스 | 하자보수(5점, 필수O) |
6. 필수(O) 항목 체크리스트
기술평가에서 필수(O) 항목을 미충족하면 탈락 가능. 총 필수 항목:
| 분야 | 필수 항목 | 배점 |
|---|---|---|
| 사업수행 | 조사 및 분석 | 3 |
| 상세 설계 | 3 | |
| HW/SW 설치 검증 | 3 | |
| 시험평가 | 4 | |
| 보안취약점 확인 | 2 | |
| 인프라 최적화/케이블 | 3 | |
| 기반운영환경 도입 구축 | 4 | |
| 도입 제품 우수성 | 5 | |
| 설치 일정 계획 | 2 | |
| 사업지원 | 교육훈련 | 3 |
| 운영환경 조성 | 3 | |
| 안정화지원 | 4 | |
| 하자보수 | 5 | |
| 합계 | 44점 |
⚠️ 필수 항목 합계 44점 / 전체 75점(사업수행 29 + 사업관리 21 + 사업지원 15 중 필수만). 필수 항목에서 0점을 받으면 배점한도 85% 달성이 어려워 협상적격자 탈락 가능.