Skip to main content

멀티모달 AI

텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 이해하고 생성

1. 멀티모달이란

단일 모달(텍스트만 또는 이미지만)이 아닌, 여러 종류의 데이터를 동시에 처리하는 AI.

모달	입력 예시	출력 예시
텍스트 → 텍스트	"요약해줘"	요약 결과
이미지 → 텍스트	서버 랙 사진	"2U 서버 3대, 스위치 2대..."
텍스트 → 이미지	"클라우드 아키텍처 다이어그램"	생성된 이미지
오디오 → 텍스트	회의 녹음	회의록
비디오 → 텍스트	강의 영상	요약/자막

2. Vision-Language 모델

2.1 이미지 이해

모델	개발	특징
GPT-4V/4o	OpenAI	이미지+텍스트 동시 입력. 다이어그램/차트 분석
Claude Vision	Anthropic	긴 문서(PDF) + 이미지 함께 처리
Gemini	Google	네이티브 멀티모달. 비디오 입력 가능
LLaVA	오픈소스	Llama + CLIP 결합

2.2 CLIP (Contrastive Language-Image Pre-training)

OpenAI의 이미지-텍스트 쌍을 벡터 공간에 정렬하는 모델. Stable Diffusion의 Text Encoder로도 사용됨.

3. 오디오

모델	방향	특징
Whisper (OpenAI)	음성 → 텍스트	다국어 STT, 오픈소스, 한국어 우수
TTS (OpenAI, ElevenLabs)	텍스트 → 음성	자연스러운 음성 합성

4. 비디오 생성

모델	특징
Sora (OpenAI)	텍스트 → 비디오. 물리 법칙 이해
Runway Gen-3	이미지/텍스트 → 비디오
Kling (Kuaishou)	중국 기반, 고품질

5. 멀티모달 RAG

텍스트뿐 아니라 이미지, 테이블, 차트가 포함된 문서를 검색하는 RAG.

접근	방법
텍스트 추출	이미지/테이블을 LLM으로 텍스트화 후 일반 RAG
멀티모달 임베딩	CLIP 등으로 이미지도 벡터화하여 검색
멀티모달 LLM	Vision LLM이 이미지+텍스트를 함께 처리

인프라 실무 활용:

서버 랙 사진 → 장비 식별, 케이블링 확인
네트워크 다이어그램 이미지 → 토폴로지 분석
모니터링 대시보드 스크린샷 → 이상 탐지
PDF 매뉴얼(이미지 포함) → Q&A

다음 글

→ AI 인프라 Overview

📝 참고 자료

1. 멀티모달이란
2. Vision-Language 모델
- 2.1 이미지 이해
- 2.2 CLIP (Contrastive Language-Image Pre-training)
3. 오디오
4. 비디오 생성
5. 멀티모달 RAG
다음 글
📝 참고 자료