AI를 위한 수학 기초
증명이 아니라 직관 — ML/DL에서 이 수학이 왜 필요하고 어떻게 사용되는가
📌 이 글의 목적
ML/DL을 이해하려면 수학이 필요하지만, 수학과 전공 수준이 필요한 것은 아님. 이 글은 AI에서 사용되는 수학의 핵심 개념과 직관을 정리하며, 각 개념이 ML/DL에서 어디에, 왜 사용되는지를 설명하는 데 집중함.
이 글을 읽고 나면:
- 벡터, 행렬, 텐서가 ML에서 데이터를 어떻게 표현하는지 이해할 수 있음
- 역전파(Backpropagation)가 왜 체인 룰 기반인지 설명할 수 있음
- 크로스 엔트로피 손실 함수의 수학적 의미를 이해할 수 있음
- 경사하강법이 왜 "기울기의 반대 방향으로 이동"하는지 직관적으로 이해할 수 있음
1. 선형대수 — 데이터의 표현과 변환
1.1 왜 선형대수인가
ML에서 모든 데이터는 **숫자의 배열(벡터, 행렬, 텐서)**로 표현됨. Neural Network의 핵심 연산은 행렬 곱셈임. 선형대수를 모르면 모델이 데이터를 어떻게 처리하는지 이해할 수 없음.
1.2 벡터, 행렬, 텐서
| 개념 | 차원 | ML에서의 의미 | 예시 |
|---|---|---|---|
| 스칼라 | 0 | 단일 값 | 학습률 α = 0.001 |
| 벡터 | 1 | 하나의 데이터 포인트, 또는 하나의 특성 | 키/몸무게/나이 = [175, 70, 30] |
| 행렬 | 2 | 데이터셋, 또는 가중치 | 100명의 3개 특성 = (100, 3) 행렬 |
| 텐서 | 3+ | 이미지, 배치, 시퀀스 | 컬러 이미지 = (높이, 너비, 채널) 3D 텐서 |
스칼라: 42
벡터: [1, 2, 3]
행렬: [[1, 2, 3],
[4, 5, 6]]
텐서: [[[1,2], [3,4]],
[[5,6], [7,8]]] ← 3D
ML에서의 활용:
| 데이터 | 텐서 형태 | 설명 |
|---|---|---|
| 표형 데이터 | (샘플 수, 특성 수) | 2D 행렬 |
| 이미지 | (높이, 너비, 채널) | 3D (흑백은 채널=1, 컬러는 3) |
| 이미지 배치 | (배치, 높이, 너비, 채널) | 4D |
| 텍스트 시퀀스 | (배치, 시퀀스 길이, 임베딩 차원) | 3D |
1.3 행렬 곱셈 — Neural Network의 핵심
Neural Network의 하나의 레이어는 본질적으로 행렬 곱셈 + 활성화 함수임.
출력 = 활성화함수(입력 × 가중치 + 편향)
y = σ ( x · W + b )
입력이 3차원, 출력이 2차원인 레이어:
x = [x₁, x₂, x₃] ← 1×3 벡터
W = [[w₁₁, w₁₂],
[w₂₁, w₂₂], ← 3×2 행렬 (가중치)
[w₃₁, w₃₂]]
b = [b₁, b₂] ← 1×2 벡터 (편향)
z = x · W + b ← 1×2 벡터
y = σ(z) ← 1×2 벡터 (출력)
💡 Neural Network의 "학습"이란 이 가중치 행렬 W의 값을 조정하는 것. 수십억 개의 파라미터를 가진 LLM도 본질은 거대한 행렬 곱셈의 연쇄임.
1.4 내적(Dot Product) — 유사도의 수학
두 벡터의 내적은 유사도를 측정하는 가장 기본적인 방법임.
a · b = |a| × |b| × cos(θ)
- 두 벡터가 같은 방향 → 내적 큼 (유사)
- 두 벡터가 직교 → 내적 0 (무관)
- 두 벡터가 반대 방향 → 내적 음수 (반대)
ML에서의 활용:
| 활용 | 설명 |
|---|---|
| 코사인 유사도 | 임베딩 벡터 간 유사도 측정 (RAG, 추천 시스템) |
| Attention | Query와 Key의 내적으로 "관련성 점수" 계산 (Transformer 핵심) |
| SVM | 커널 함수의 기반 |
💡 Transformer의 Self-Attention은 본질적으로 "Query 벡터와 Key 벡터의 내적을 계산하여 유사도를 구하고, 그 유사도로 Value 벡터를 가중합"하는 것임. 내적을 이해하면 Attention을 이해할 수 있음.
1.5 고유값/고유벡터
행렬 A에 대해 A·v = λ·v를 만족하는 벡터 v가 고유벡터, λ가 고유값.
- 직관: 행렬 변환을 적용해도 방향이 바뀌지 않는 벡터
- ML 활용: PCA(주성분 분석)에서 데이터의 분산이 가장 큰 방향을 찾는 데 사용
2. 미적분 — 모델이 학습하는 원리
2.1 왜 미적분인가
Neural Network의 학습은 **"손실 함수를 최소화하는 가중치를 찾는 것"**임. 손실 함수의 최솟값을 찾으려면 기울기(미분) 를 계산해야 함. 미적분이 없으면 모델이 왜 학습되는지 이해할 수 없음.
2.2 편미분 — 가중치별 영향 측정
손실 함수 L이 여러 가중치(w₁, w₂, ...)에 의존할 때, 각 가중치가 손실에 미치는 영향을 개별적으로 측정하는 것이 편미분.
∂L/∂w₁ = w₁이 조금 변할 때 L이 얼마나 변하는가
∂L/∂w₂ = w₂가 조금 변할 때 L이 얼마나 변하는가
- 편미분 값이 크면 → 그 가중치가 손실에 큰 영향을 미침
- 편미분 값이 양수면 → 가중치를 줄여야 손실이 줄어듦
- 편미분 값이 음수면 → 가중치를 늘려야 손실이 줄어듦
2.3 그래디언트 — 모든 편미분의 벡터
그래디언트는 모든 가중치에 대한 편미분을 모은 벡터임.
∇L = [∂L/∂w₁, ∂L/∂w₂, ..., ∂L/∂wₙ]
- 그래디언트의 방향 = 손실이 가장 빠르게 증가하는 방향
- 그래디언트의 반대 방향 = 손실이 가장 빠르게 감소하는 방향
- 경사하강법: 그래디언트의 반대 방향으로 가중치를 업데이트
w_new = w_old - α × ∇L
(α는 학습률)
2.4 체인 룰 — 역전파의 수학적 기반
Neural Network는 여러 레이어가 연쇄적으로 합성된 함수임. 각 레이어의 가중치에 대한 그래디언트를 구하려면 **체인 룰(연쇄 법칙)**이 필요함.
합성 함수: y = f(g(h(x)))
체인 룰:
dy/dx = dy/dg × dg/dh × dh/dx
**역전파(Backpropagation)**는 출력에서 입력 방향으로 체인 룰을 적용하여 각 가중치의 그래디언트를 효율적으로 계산하는 알고리즘임.
| 단계 | 방향 | 하는 일 |
|---|---|---|
| 순전파(Forward) | 입력 → 출력 | 각 레이어의 출력을 순차적으로 계산 |
| 역전파(Backward) | 출력 → 입력 | 체인 룰로 각 가중치의 그래디언트를 역순 계산 |
💡 Deep Neural Network가 학습 가능한 이유가 바로 체인 룰 + 역전파. 레이어가 아무리 깊어도 그래디언트를 체계적으로 계산할 수 있음. (다만 기울기 소실/폭발 문제는 별도)
3. 확률과 통계 — 불확실성의 수학
3.1 왜 확률인가
ML은 본질적으로 **"데이터에서 패턴을 찾아 불확실한 미래를 예측"**하는 것임. 확률은 이 불확실성을 수학적으로 다루는 도구.
3.2 확률 분포
| 분포 | 설명 | ML 활용 |
|---|---|---|
| 정규 분포 (가우시안) | 종 모양, 자연계 많은 현상 | 가중치 초기화, 노이즈 모델링 |
| 베르누이 | 0 또는 1 (이진) | 이진 분류 (스팸/정상) |
| 카테고리컬 | k개 중 하나 | 다중 분류 (개/고양이/새) |
| 소프트맥스 | 카테고리컬의 연속 버전 | Neural Network의 마지막 레이어에서 확률 출력 |
소프트맥스 함수:
softmax(zᵢ) = e^zᵢ / Σⱼ e^zⱼ
- 입력: 임의의 실수 벡터 (logits)
- 출력: 0~1 사이의 확률 (합계 = 1)
- Neural Network의 분류 레이어에서 "각 클래스의 확률"을 계산하는 데 사용
3.3 베이즈 정리
P(A|B) = P(B|A) × P(A) / P(B)
사후확률 = 우도 × 사전확률 / 증거
- 사전 확률 P(A): 데이터를 보기 전의 믿음
- 우도 P(B|A): A가 참일 때 B를 관찰할 확률
- 사후 확률 P(A|B): 데이터 B를 본 후 A에 대한 업데이트된 믿음
ML 활용:
| 활용 | 설명 |
|---|---|
| 나이브 베이즈 분류기 | 스팸 필터 등에서 가장 간단한 확률적 분류 |
| 베이지안 최적화 | 하이퍼파라미터 튜닝 |
| 사전 학습 → 파인튜닝 | 사전 확률(대규모 데이터) → 사후 확률(특정 태스크) |
3.4 최대우도추정 (MLE)
"데이터를 가장 잘 설명하는 파라미터를 찾자" — ML 학습의 근본 원리.
θ* = argmax P(Data | θ)
θ
"관찰된 데이터가 발생할 확률을 최대화하는 파라미터 θ를 찾아라"
- Neural Network의 학습도 본질적으로 MLE (또는 MAP)
- 크로스 엔트로피 손실 함수를 최소화하는 것 = 로그 우도를 최대화하는 것 (동치)
3.5 정보 이론 — 엔트로피와 크로스 엔트로피
엔트로피: 확률 분포의 불확실성/정보량을 측정
H(p) = -Σ pᵢ × log(pᵢ)
- 모든 클래스가 동일 확률 → 엔트로피 최대 (불확실성 큼)
- 하나의 클래스가 확률 1 → 엔트로피 0 (불확실성 없음)
크로스 엔트로피: 두 분포 p(정답)와 q(예측) 간의 차이를 측정
H(p, q) = -Σ pᵢ × log(qᵢ)
| 항목 | 설명 |
|---|---|
| p | 정답 분포 (one-hot: [0, 1, 0]) |
| q | 모델의 예측 분포 ([0.1, 0.8, 0.1]) |
| H(p, q) | 예측이 정답과 얼마나 다른가 |
💡 크로스 엔트로피 손실 함수는 ML에서 가장 많이 사용되는 손실 함수. 분류 문제에서 "모델의 예측 확률이 정답과 얼마나 다른가"를 측정함. 이 값을 최소화하는 것이 곧 MLE.
4. 최적화 — 학습의 엔진
4.1 왜 최적화인가
ML 학습 = 손실 함수를 최소화하는 파라미터를 찾는 최적화 문제. 최적화 방법을 이해하면 학습이 왜 수렴하거나 발산하는지, 학습률을 왜 조정해야 하는지를 이해할 수 있음.
4.2 경사하강법 (Gradient Descent)
w ← w - α × ∂L/∂w
가중치 = 가중치 - 학습률 × 기울기
변형:
| 방법 | 배치 크기 | 특징 |
|---|---|---|
| Batch GD | 전체 데이터 | 안정적이지만 느림. 메모리 많이 필요 |
| Stochastic GD (SGD) | 1개 | 빠르지만 불안정. 노이즈가 큼 |
| Mini-batch GD | 32~512 | ✅ 실전 표준. 속도와 안정성의 균형 |
4.3 고급 옵티마이저
SGD의 문제를 해결하기 위해 다양한 옵티마이저가 개발됨.
| 옵티마이저 | 핵심 아이디어 | 사용 |
|---|---|---|
| Momentum | 이전 이동 방향의 관성을 유지 | 진동 감소 |
| RMSProp | 각 파라미터별 학습률을 적응적으로 조절 | 비대칭 기울기 |
| Adam | Momentum + RMSProp 결합 | ✅ 가장 많이 사용 |
| AdamW | Adam + Weight Decay (L2 정규화 개선) | ✅ LLM 학습 표준 |
4.4 볼록 vs 비볼록
| 볼록 (Convex) | 비볼록 (Non-convex) | |
|---|---|---|
| 모양 | 그릇 (최솟값 하나) | 울퉁불퉁 (최솟값 여러 개) |
| 최적해 | 전역 최적해 보장 | 지역 최적해에 빠질 수 있음 |
| 예시 | 선형 회귀 | Deep Neural Network |
| 해결 | 경사하강법으로 충분 | 옵티마이저 선택, 학습률 스케줄러 필요 |
💡 Deep Learning의 손실 함수는 비볼록이라 전역 최적해를 보장할 수 없음. 하지만 실전에서는 "충분히 좋은" 지역 최적해를 찾는 것으로도 높은 성능을 달성함. 안장점(Saddle Point)을 탈출하는 것이 지역 최솟값보다 더 큰 문제인 경우가 많음.
4.5 학습률의 중요성
| 학습률 | 결과 |
|---|---|
| 너무 큼 | 발산 (손실이 증가) |
| 너무 작음 | 학습이 매우 느림, 지역 최적해에 갇힘 |
| 적절 | 안정적으로 수렴 |
학습률 스케줄러: 학습 과정에서 학습률을 동적으로 조절
| 스케줄러 | 동작 | 용도 |
|---|---|---|
| Step Decay | 일정 에폭마다 학습률 감소 | 기본 |
| Cosine Annealing | 코사인 곡선으로 감소 | 일반적 |
| Warmup + Cosine | 초기에 학습률을 점진적으로 올린 후 코사인 감소 | ✅ LLM 학습 표준 |
5. 정리 — 수학 → ML 연결 맵
| 수학 개념 | ML에서의 역할 | 어디서 만나는가 |
|---|---|---|
| 벡터/행렬/텐서 | 데이터와 가중치의 표현 | 모든 곳 |
| 행렬 곱셈 | Neural Network 레이어의 핵심 연산 | 모든 레이어 |
| 내적 | 유사도 측정 | Attention, 임베딩, SVM |
| 고유값/고유벡터 | 데이터의 주요 방향 | PCA |
| 편미분 | 각 가중치의 영향 측정 | 역전파 |
| 체인 룰 | 다층 네트워크의 그래디언트 계산 | 역전파 |
| 확률 분포 | 출력의 불확실성 표현 | 소프트맥스, 분류 |
| 베이즈 정리 | 사전 지식 + 데이터 → 예측 | 나이브 베이즈, 베이지안 |
| MLE | 학습의 근본 원리 | 손실 함수 최소화 |
| 크로스 엔트로피 | 예측과 정답의 차이 | 분류 손실 함수 |
| 경사하강법 | 가중치 업데이트 | 모든 학습 |
| Adam/AdamW | 효율적 최적화 | 표준 옵티마이저 |
이 글의 수학은 ML/DL의 "왜?"를 이해하기 위한 최소한임. 각 개념은 이후 시리즈에서 실제 알고리즘과 함께 다시 만나게 됨.
다음 글
→ Machine Learning Overview — ML 정의, 학습 유형, 워크플로우, 편향-분산 트레이드오프
🔗 관련 문서
- AI & ML Series Index — 시리즈 목차