Skip to main content

멀티모달 AI

텍스트, 이미지, 오디오, 비디오를 하나의 모델에서 이해하고 생성


1. 멀티모달이란

단일 모달(텍스트만 또는 이미지만)이 아닌, 여러 종류의 데이터를 동시에 처리하는 AI.

모달입력 예시출력 예시
텍스트 → 텍스트"요약해줘"요약 결과
이미지 → 텍스트서버 랙 사진"2U 서버 3대, 스위치 2대..."
텍스트 → 이미지"클라우드 아키텍처 다이어그램"생성된 이미지
오디오 → 텍스트회의 녹음회의록
비디오 → 텍스트강의 영상요약/자막

2. Vision-Language 모델

2.1 이미지 이해

모델개발특징
GPT-4V/4oOpenAI이미지+텍스트 동시 입력. 다이어그램/차트 분석
Claude VisionAnthropic긴 문서(PDF) + 이미지 함께 처리
GeminiGoogle네이티브 멀티모달. 비디오 입력 가능
LLaVA오픈소스Llama + CLIP 결합

2.2 CLIP (Contrastive Language-Image Pre-training)

OpenAI의 이미지-텍스트 쌍을 벡터 공간에 정렬하는 모델. Stable Diffusion의 Text Encoder로도 사용됨.


3. 오디오

모델방향특징
Whisper (OpenAI)음성 → 텍스트다국어 STT, 오픈소스, 한국어 우수
TTS (OpenAI, ElevenLabs)텍스트 → 음성자연스러운 음성 합성

4. 비디오 생성

모델특징
Sora (OpenAI)텍스트 → 비디오. 물리 법칙 이해
Runway Gen-3이미지/텍스트 → 비디오
Kling (Kuaishou)중국 기반, 고품질

5. 멀티모달 RAG

텍스트뿐 아니라 이미지, 테이블, 차트가 포함된 문서를 검색하는 RAG.

접근방법
텍스트 추출이미지/테이블을 LLM으로 텍스트화 후 일반 RAG
멀티모달 임베딩CLIP 등으로 이미지도 벡터화하여 검색
멀티모달 LLMVision LLM이 이미지+텍스트를 함께 처리

인프라 실무 활용:

  • 서버 랙 사진 → 장비 식별, 케이블링 확인
  • 네트워크 다이어그램 이미지 → 토폴로지 분석
  • 모니터링 대시보드 스크린샷 → 이상 탐지
  • PDF 매뉴얼(이미지 포함) → Q&A

다음 글

AI 인프라 Overview


📝 참고 자료