멀티모달 AI
텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 이해하고 생성
1. 멀티모달이란
단일 모달(텍스트만 또는 이미지만)이 아닌, 여러 종류의 데이터를 동시에 처리하는 AI.
| 모달 | 입력 예시 | 출력 예시 |
|---|---|---|
| 텍스트 → 텍스트 | "요약해줘" | 요약 결과 |
| 이미지 → 텍스트 | 서버 랙 사진 | "2U 서버 3대, 스위치 2대..." |
| 텍스트 → 이미지 | "클라우드 아키텍처 다이어그램" | 생성된 이미지 |
| 오디오 → 텍스트 | 회의 녹음 | 회의록 |
| 비디오 → 텍스트 | 강의 영상 | 요약/자막 |
2. Vision-Language 모델
2.1 이미지 이해
| 모델 | 개발 | 특징 |
|---|---|---|
| GPT-4V/4o | OpenAI | 이미지+텍스트 동시 입력. 다이어그램/차트 분석 |
| Claude Vision | Anthropic | 긴 문서(PDF) + 이미지 함께 처리 |
| Gemini | 네이티브 멀티모달. 비디오 입력 가능 | |
| LLaVA | 오픈소스 | Llama + CLIP 결합 |
2.2 CLIP (Contrastive Language-Image Pre-training)
OpenAI의 이미지-텍스트 쌍을 벡터 공간에 정렬하는 모델. Stable Diffusion의 Text Encoder로도 사용됨.
3. 오디오
| 모델 | 방향 | 특징 |
|---|---|---|
| Whisper (OpenAI) | 음성 → 텍스트 | 다국어 STT, 오픈소스, 한국어 우수 |
| TTS (OpenAI, ElevenLabs) | 텍스트 → 음성 | 자연스러운 음성 합성 |
4. 비디오 생성
| 모델 | 특징 |
|---|---|
| Sora (OpenAI) | 텍스트 → 비디오. 물리 법칙 이해 |
| Runway Gen-3 | 이미지/텍스트 → 비디오 |
| Kling (Kuaishou) | 중국 기반, 고품질 |
5. 멀티모달 RAG
텍스트뿐 아니라 이미지, 테이블, 차트가 포함된 문서를 검색하는 RAG.
| 접근 | 방법 |
|---|---|
| 텍스트 추출 | 이미지/테이블을 LLM으로 텍스트화 후 일반 RAG |
| 멀티모달 임베딩 | CLIP 등으로 이미지도 벡터화하여 검색 |
| 멀티모달 LLM | Vision LLM이 이미지+텍스트를 함께 처리 |
인프라 실무 활용:
- 서버 랙 사진 → 장비 식별, 케이블링 확인
- 네트워크 다이어그램 이미지 → 토폴로지 분석
- 모니터링 대시보드 스크린샷 → 이상 탐지
- PDF 매뉴얼(이미지 포함) → Q&A