Skip to main content

LLM Overview

"충분히 큰 Transformer에 충분히 많은 텍스트를 학습시키면, 놀라운 능력이 나타난다"


📌 이 글의 목적

LLM(Large Language Model)은 현재 AI의 핵심임. 이 글은 LLM이 무엇이고, 어떻게 발전해왔으며, 왜 강력한지를 아키텍처 수준에서 이해하는 데 집중함.

이 글을 읽고 나면:

  • 언어 모델의 진화 경로(n-gram → RNN → Transformer → LLM)를 설명할 수 있음
  • BERT vs GPT의 아키텍처 차이를 이해할 수 있음
  • Scaling Law와 Emergent Abilities가 무엇인지 설명할 수 있음
  • 토크나이저의 동작 원리를 이해할 수 있음
  • 컨텍스트 윈도우, KV Cache 등 추론 최적화의 기초를 알 수 있음

1. 언어 모델의 진화

1.1 타임라인

1.2 핵심 전환점

전환점의미
Word2Vec (2013)단어를 고정 벡터로 표현. "의미의 수학" 가능해짐
Transformer (2017)Self-Attention으로 RNN의 순차 처리 한계 극복. 병렬화 가능
GPT-1 (2018)"사전학습 + 파인튜닝" 패러다임 확립
GPT-3 (2020)스케일만으로 Few-shot 능력이 나타남. In-context Learning 발견
ChatGPT (2022)RLHF로 대화형 인터페이스. LLM 대중화의 시작

2. LLM의 핵심 아키텍처

2.1 세 가지 Transformer 변형

유형대표 모델방향학습 방식주요 용도
Encoder-onlyBERT, RoBERTa양방향마스킹(MLM)분류, 임베딩, NER
Decoder-onlyGPT, Claude, Llama단방향 (←)다음 토큰 예측✅ 생성, 대화, 추론
Encoder-DecoderT5, BART양방향 + 단방향Seq2Seq번역, 요약

💡 현재 LLM의 주류는 Decoder-only 아키텍처. GPT, Claude, Gemini, Llama 모두 Decoder-only임. "다음 토큰 예측"이라는 단순한 목표가 놀랍도록 강력한 능력을 만들어냄.

2.2 BERT vs GPT — 핵심 차이

BERTGPT
구조Encoder-onlyDecoder-only
방향양방향 (좌→우 + 우→좌 동시)단방향 (좌→우만)
학습마스킹된 단어 맞추기 (MLM)다음 단어 예측 (CLM)
강점문맥 이해 (분류, 임베딩)텍스트 생성 (대화, 코드)
약점생성 불가능(Encoder 대비) 양방향 이해가 약함
파라미터3.4억 (Large)GPT-4: 추정 수조
현재 위치임베딩/분류 특화✅ LLM 주류
BERT (양방향):
"나는 [MASK] 먹었다" → [MASK] = "밥을" (빈칸 맞추기)

GPT (단방향):
"나는 밥을" → "먹었다" (다음 단어 예측)
"나는 밥을 먹었다. 그래서" → "배가 불렀다." (계속 생성)

2.3 디코딩 — 다음 토큰 예측의 실제

LLM이 텍스트를 생성하는 과정:

디코딩 전략설명특성
Greedy항상 가장 높은 확률의 토큰 선택결정적, 반복 발생
Temperature확률 분포를 조절 (높으면 랜덤, 낮으면 결정적)T=0: Greedy, T=1: 기본
Top-k상위 k개 토큰 중에서만 샘플링극단적 토큰 배제
Top-p (Nucleus)누적 확률이 p가 될 때까지의 토큰 중 샘플링✅ 실전에서 많이 사용

3. 사전학습과 정렬

3.1 두 단계 학습

단계목적데이터비용
사전학습언어의 패턴/지식 학습수조 토큰 (인터넷, 책, 코드)💰💰💰 (수백만 달러)
SFT지시를 따르도록 학습수만~수십만 대화 쌍💰
RLHF/DPO안전하고 유용한 응답 생성인간 평가 데이터💰💰

3.2 Base Model vs Chat Model

Base ModelChat Model
학습사전학습만사전학습 + SFT + RLHF
동작다음 토큰을 계속 생성 (자동완성)질문에 대한 답변 생성
출력"서울의 날씨는 맑고 기온은..." (계속)"서울의 현재 날씨를 알려드리겠습니다..."
활용파인튜닝 기반 모델✅ 일반 사용자가 사용하는 모델

💡 ChatGPT, Claude 등은 모두 Chat Model. Base Model에 SFT + RLHF를 적용하여 "대화"가 가능해진 것. Base Model 자체는 질문에 답하지 않고 텍스트를 계속 이어 생성하기만 함.


4. Scaling Law

4.1 "크면 클수록 좋다"의 수학

2020년 OpenAI의 Kaplan et al. 논문에서 발견한 법칙:

성능 ∝ 모델 크기^α × 데이터 크기^β × 컴퓨팅^γ

세 가지 요소를 늘리면 예측 가능하게 성능이 향상됨.

4.2 Chinchilla Scaling Law (2022)

DeepMind의 Chinchilla 논문이 기존 Scaling Law를 수정:

이전 (GPT-3 시대)Chinchilla 이후
전략모델을 최대한 키워라모델과 데이터의 비율을 맞춰라
최적 비율파라미터 1개당 약 20개 토큰
영향GPT-3: 1750억 params, 3000억 tokensChinchilla: 700억 params, 1.4조 tokens

💡 Chinchilla 이후 LLM 개발의 패러다임이 바뀜. "무조건 크게"가 아니라 **"적절한 크기의 모델을 충분한 데이터로"**가 더 효율적이라는 것. Llama 시리즈가 이 원칙을 따름.

4.3 Emergent Abilities (창발 능력)

모델이 일정 규모를 넘으면 학습하지 않은 능력이 갑자기 나타나는 현상.

능력나타나는 규모설명
Few-shot Learning~10B+예시 몇 개만으로 새 태스크 수행
Chain-of-Thought~100B+단계별 추론 능력
코드 생성~10B+자연어 → 코드 변환
수학 추론~100B+수학 문제 단계적 풀이

이 "창발 능력"이 진짜 갑자기 나타나는 것인지, 아니면 측정 방법의 문제인지는 아직 논쟁 중임. 하지만 스케일이 중요하다는 점은 명확함.


5. 토크나이저

5.1 토큰이란

LLM은 텍스트를 토큰 단위로 처리함. 토큰은 단어, 서브워드, 또는 문자일 수 있음.

입력: "Proxmox는 오픈소스 가상화 플랫폼이다"

토큰화 예시 (BPE):
["Prox", "mox", "는", " 오픈", "소스", " 가상", "화", " 플랫", "폼", "이다"]
→ 10개 토큰

5.2 토크나이저 종류

방식설명대표
BPE (Byte Pair Encoding)자주 나오는 문자 쌍을 반복 병합GPT 시리즈, Llama
WordPieceBPE와 유사, 우도 기반BERT
SentencePiece언어에 독립적, 공백도 토큰화T5, Llama
tiktokenOpenAI의 BPE 구현GPT-3.5/4

5.3 토큰 수가 중요한 이유

영향설명
비용API 과금이 토큰 단위 (입력 + 출력 토큰)
컨텍스트 윈도우한 번에 처리할 수 있는 최대 토큰 수
속도토큰 수가 많을수록 생성 시간 증가
언어 효율성영어는 1단어 ≈ 11.5토큰, 한국어는 1글자 ≈ 12토큰 (비효율)

⚠️ 한국어는 토큰 효율이 낮음. 영어 대비 같은 내용을 표현하는 데 더 많은 토큰이 소비됨. API 비용이 더 들고, 컨텍스트 윈도우를 더 빨리 채움.


6. 컨텍스트 윈도우와 추론

6.1 컨텍스트 윈도우

LLM이 한 번에 처리할 수 있는 최대 토큰 수.

모델컨텍스트 윈도우대략적 분량
GPT-3 (2020)2KA4 ~2장
GPT-3.54K~16KA4 ~10장
GPT-48K~128KA4 ~80장
Claude 3200KA4 ~130장
Gemini 1.51M~2M책 수 권

컨텍스트 윈도우가 커지면서 RAG 없이도 긴 문서를 직접 넣을 수 있게 됨. 하지만 "전부 넣을 수 있다"와 "전부 잘 활용한다"는 다른 문제 (Lost in the Middle 현상).

6.2 KV Cache — 추론 최적화의 핵심

LLM이 토큰을 하나씩 생성할 때마다 이전 토큰들의 Attention을 다시 계산하면 매우 비효율적. KV Cache는 이전 토큰의 Key/Value를 저장해두고 재사용함.

KV Cache 없이KV Cache 사용
계산량O(n²) — 매 토큰마다 전체 재계산O(n) — 새 토큰만 계산
메모리적음많음 (K,V 저장)
속도느림✅ 빠름

💡 KV Cache가 GPU 메모리를 대량으로 소비하는 이유가 여기에 있음. 긴 컨텍스트 윈도우 = 더 큰 KV Cache = 더 많은 GPU 메모리 필요. 이것이 추론 인프라의 핵심 제약.

6.3 추론 최적화 기법

기법설명효과
양자화FP32 → INT8/INT4로 정밀도 낮춤메모리 2~4배 절약, 약간의 성능 저하
KV Cache 최적화PagedAttention, GQA메모리 효율 개선
연속 배칭여러 요청을 동시에 처리처리량 향상
Speculative Decoding작은 모델이 초안 생성, 큰 모델이 검증속도 2~3배 향상
vLLMPagedAttention 기반 서빙 엔진✅ 현재 표준 추론 서버

7. 주요 LLM 비교

7.1 모델 계보

7.2 주요 모델 비교

모델개발사오픈소스컨텍스트특징
GPT-4oOpenAI128K멀티모달, 빠른 추론
Claude (Opus 4)Anthropic200K긴 문서, 코딩, 안전성
Gemini 2.0Google2M초대형 컨텍스트, 멀티모달
Llama 3Meta128K오픈소스 최강, 파인튜닝 가능
MistralMistral AI128K소형 고효율, MoE
Qwen 2.5Alibaba128K오픈소스, 다국어

7.3 오픈소스 vs 폐쇄 모델

폐쇄 (GPT, Claude)오픈소스 (Llama, Mistral)
성능✅ 최고좋음 (격차 줄어드는 중)
비용API 종량 과금자체 인프라 비용 (GPU)
프라이버시데이터가 외부로 나감✅ 자체 서버에서 처리
커스터마이즈API 파라미터만 조절✅ 파인튜닝 자유
운영 부담❌ 없음 (API 호출만)GPU 서버 운영 필요

8. LLM의 한계

한계설명대응
환각 (Hallucination)사실이 아닌 내용을 자신 있게 생성RAG, 사실 검증 레이어
지식 컷오프학습 데이터 이후의 정보를 모름RAG, 웹 검색 연동
수학/논리 약점복잡한 연산이나 논리 추론에서 실수CoT, 외부 도구(계산기)
컨텍스트 한계윈도우를 넘어가는 긴 입력 처리 불가RAG, 청킹, 요약
일관성같은 질문에 다른 답을 할 수 있음Temperature=0, System Prompt
보안프롬프트 인젝션에 취약가드레일, 입력 필터링

💡 이 한계들을 보완하는 것이 RAG(#12), Agent(#13), **프롬프트 엔지니어링(#11)**의 역할. LLM 자체의 능력 + 외부 도구/데이터 결합이 현재 실무 패턴의 핵심.


정리

개념핵심
LLM대규모 Transformer 기반 언어 모델. 다음 토큰 예측으로 학습
아키텍처Decoder-only가 주류 (GPT, Claude, Llama)
학습사전학습(자기지도) → SFT(지시 따르기) → RLHF/DPO(정렬)
Scaling Law모델/데이터/컴퓨팅을 늘리면 예측 가능하게 성능 향상
Emergent Abilities일정 규모 이상에서 학습하지 않은 능력이 나타남
토큰LLM의 처리 단위. BPE가 표준. 한국어는 토큰 효율 낮음
KV Cache추론 속도의 핵심. GPU 메모리를 대량 소비
한계환각, 지식 컷오프, 수학/논리 → RAG, Agent로 보완

다음 글

파인튜닝 — LoRA, RLHF, PEFT — 사전학습 모델을 특정 태스크에 맞추는 방법


🔗 관련 문서


📝 참고 자료