Skip to main content

AI를 위한 수학 기초

증명이 아니라 직관 — ML/DL에서 이 수학이 왜 필요하고 어떻게 사용되는가


📌 이 글의 목적

ML/DL을 이해하려면 수학이 필요하지만, 수학과 전공 수준이 필요한 것은 아님. 이 글은 AI에서 사용되는 수학의 핵심 개념과 직관을 정리하며, 각 개념이 ML/DL에서 어디에, 왜 사용되는지를 설명하는 데 집중함.

이 글을 읽고 나면:

  • 벡터, 행렬, 텐서가 ML에서 데이터를 어떻게 표현하는지 이해할 수 있음
  • 역전파(Backpropagation)가 왜 체인 룰 기반인지 설명할 수 있음
  • 크로스 엔트로피 손실 함수의 수학적 의미를 이해할 수 있음
  • 경사하강법이 왜 "기울기의 반대 방향으로 이동"하는지 직관적으로 이해할 수 있음

1. 선형대수 — 데이터의 표현과 변환

1.1 왜 선형대수인가

ML에서 모든 데이터는 **숫자의 배열(벡터, 행렬, 텐서)**로 표현됨. Neural Network의 핵심 연산은 행렬 곱셈임. 선형대수를 모르면 모델이 데이터를 어떻게 처리하는지 이해할 수 없음.

1.2 벡터, 행렬, 텐서

개념차원ML에서의 의미예시
스칼라0단일 값학습률 α = 0.001
벡터1하나의 데이터 포인트, 또는 하나의 특성키/몸무게/나이 = [175, 70, 30]
행렬2데이터셋, 또는 가중치100명의 3개 특성 = (100, 3) 행렬
텐서3+이미지, 배치, 시퀀스컬러 이미지 = (높이, 너비, 채널) 3D 텐서
스칼라:  42
벡터: [1, 2, 3]
행렬: [[1, 2, 3],
[4, 5, 6]]
텐서: [[[1,2], [3,4]],
[[5,6], [7,8]]] ← 3D

ML에서의 활용:

데이터텐서 형태설명
표형 데이터(샘플 수, 특성 수)2D 행렬
이미지(높이, 너비, 채널)3D (흑백은 채널=1, 컬러는 3)
이미지 배치(배치, 높이, 너비, 채널)4D
텍스트 시퀀스(배치, 시퀀스 길이, 임베딩 차원)3D

1.3 행렬 곱셈 — Neural Network의 핵심

Neural Network의 하나의 레이어는 본질적으로 행렬 곱셈 + 활성화 함수임.

출력 = 활성화함수(입력 × 가중치 + 편향)
y = σ ( x · W + b )

입력이 3차원, 출력이 2차원인 레이어:

x = [x₁, x₂, x₃]          ← 1×3 벡터

W = [[w₁₁, w₁₂],
[w₂₁, w₂₂], ← 3×2 행렬 (가중치)
[w₃₁, w₃₂]]

b = [b₁, b₂] ← 1×2 벡터 (편향)

z = x · W + b ← 1×2 벡터
y = σ(z) ← 1×2 벡터 (출력)

💡 Neural Network의 "학습"이란 이 가중치 행렬 W의 값을 조정하는 것. 수십억 개의 파라미터를 가진 LLM도 본질은 거대한 행렬 곱셈의 연쇄임.

1.4 내적(Dot Product) — 유사도의 수학

두 벡터의 내적은 유사도를 측정하는 가장 기본적인 방법임.

a · b = |a| × |b| × cos(θ)
  • 두 벡터가 같은 방향 → 내적 큼 (유사)
  • 두 벡터가 직교 → 내적 0 (무관)
  • 두 벡터가 반대 방향 → 내적 음수 (반대)

ML에서의 활용:

활용설명
코사인 유사도임베딩 벡터 간 유사도 측정 (RAG, 추천 시스템)
AttentionQuery와 Key의 내적으로 "관련성 점수" 계산 (Transformer 핵심)
SVM커널 함수의 기반

💡 Transformer의 Self-Attention은 본질적으로 "Query 벡터와 Key 벡터의 내적을 계산하여 유사도를 구하고, 그 유사도로 Value 벡터를 가중합"하는 것임. 내적을 이해하면 Attention을 이해할 수 있음.

1.5 고유값/고유벡터

행렬 A에 대해 A·v = λ·v를 만족하는 벡터 v가 고유벡터, λ가 고유값.

  • 직관: 행렬 변환을 적용해도 방향이 바뀌지 않는 벡터
  • ML 활용: PCA(주성분 분석)에서 데이터의 분산이 가장 큰 방향을 찾는 데 사용

2. 미적분 — 모델이 학습하는 원리

2.1 왜 미적분인가

Neural Network의 학습은 **"손실 함수를 최소화하는 가중치를 찾는 것"**임. 손실 함수의 최솟값을 찾으려면 기울기(미분) 를 계산해야 함. 미적분이 없으면 모델이 왜 학습되는지 이해할 수 없음.

2.2 편미분 — 가중치별 영향 측정

손실 함수 L이 여러 가중치(w₁, w₂, ...)에 의존할 때, 각 가중치가 손실에 미치는 영향을 개별적으로 측정하는 것이 편미분.

∂L/∂w₁ = w₁이 조금 변할 때 L이 얼마나 변하는가
∂L/∂w₂ = w₂가 조금 변할 때 L이 얼마나 변하는가
  • 편미분 값이 크면 → 그 가중치가 손실에 큰 영향을 미침
  • 편미분 값이 양수면 → 가중치를 줄여야 손실이 줄어듦
  • 편미분 값이 음수면 → 가중치를 늘려야 손실이 줄어듦

2.3 그래디언트 — 모든 편미분의 벡터

그래디언트는 모든 가중치에 대한 편미분을 모은 벡터임.

∇L = [∂L/∂w₁, ∂L/∂w₂, ..., ∂L/∂wₙ]
  • 그래디언트의 방향 = 손실이 가장 빠르게 증가하는 방향
  • 그래디언트의 반대 방향 = 손실이 가장 빠르게 감소하는 방향
  • 경사하강법: 그래디언트의 반대 방향으로 가중치를 업데이트
w_new = w_old - α × ∇L

(α는 학습률)

2.4 체인 룰 — 역전파의 수학적 기반

Neural Network는 여러 레이어가 연쇄적으로 합성된 함수임. 각 레이어의 가중치에 대한 그래디언트를 구하려면 **체인 룰(연쇄 법칙)**이 필요함.

합성 함수: y = f(g(h(x)))

체인 룰:
dy/dx = dy/dg × dg/dh × dh/dx

**역전파(Backpropagation)**는 출력에서 입력 방향으로 체인 룰을 적용하여 각 가중치의 그래디언트를 효율적으로 계산하는 알고리즘임.

단계방향하는 일
순전파(Forward)입력 → 출력각 레이어의 출력을 순차적으로 계산
역전파(Backward)출력 → 입력체인 룰로 각 가중치의 그래디언트를 역순 계산

💡 Deep Neural Network가 학습 가능한 이유가 바로 체인 룰 + 역전파. 레이어가 아무리 깊어도 그래디언트를 체계적으로 계산할 수 있음. (다만 기울기 소실/폭발 문제는 별도)


3. 확률과 통계 — 불확실성의 수학

3.1 왜 확률인가

ML은 본질적으로 **"데이터에서 패턴을 찾아 불확실한 미래를 예측"**하는 것임. 확률은 이 불확실성을 수학적으로 다루는 도구.

3.2 확률 분포

분포설명ML 활용
정규 분포 (가우시안)종 모양, 자연계 많은 현상가중치 초기화, 노이즈 모델링
베르누이0 또는 1 (이진)이진 분류 (스팸/정상)
카테고리컬k개 중 하나다중 분류 (개/고양이/새)
소프트맥스카테고리컬의 연속 버전Neural Network의 마지막 레이어에서 확률 출력

소프트맥스 함수:

softmax(zᵢ) = e^zᵢ / Σⱼ e^zⱼ
  • 입력: 임의의 실수 벡터 (logits)
  • 출력: 0~1 사이의 확률 (합계 = 1)
  • Neural Network의 분류 레이어에서 "각 클래스의 확률"을 계산하는 데 사용

3.3 베이즈 정리

P(A|B) = P(B|A) × P(A) / P(B)

사후확률 = 우도 × 사전확률 / 증거
  • 사전 확률 P(A): 데이터를 보기 전의 믿음
  • 우도 P(B|A): A가 참일 때 B를 관찰할 확률
  • 사후 확률 P(A|B): 데이터 B를 본 후 A에 대한 업데이트된 믿음

ML 활용:

활용설명
나이브 베이즈 분류기스팸 필터 등에서 가장 간단한 확률적 분류
베이지안 최적화하이퍼파라미터 튜닝
사전 학습 → 파인튜닝사전 확률(대규모 데이터) → 사후 확률(특정 태스크)

3.4 최대우도추정 (MLE)

"데이터를 가장 잘 설명하는 파라미터를 찾자" — ML 학습의 근본 원리.

θ* = argmax P(Data | θ)
θ

"관찰된 데이터가 발생할 확률을 최대화하는 파라미터 θ를 찾아라"
  • Neural Network의 학습도 본질적으로 MLE (또는 MAP)
  • 크로스 엔트로피 손실 함수를 최소화하는 것 = 로그 우도를 최대화하는 것 (동치)

3.5 정보 이론 — 엔트로피와 크로스 엔트로피

엔트로피: 확률 분포의 불확실성/정보량을 측정

H(p) = -Σ pᵢ × log(pᵢ)
  • 모든 클래스가 동일 확률 → 엔트로피 최대 (불확실성 큼)
  • 하나의 클래스가 확률 1 → 엔트로피 0 (불확실성 없음)

크로스 엔트로피: 두 분포 p(정답)와 q(예측) 간의 차이를 측정

H(p, q) = -Σ pᵢ × log(qᵢ)
항목설명
p정답 분포 (one-hot: [0, 1, 0])
q모델의 예측 분포 ([0.1, 0.8, 0.1])
H(p, q)예측이 정답과 얼마나 다른가

💡 크로스 엔트로피 손실 함수는 ML에서 가장 많이 사용되는 손실 함수. 분류 문제에서 "모델의 예측 확률이 정답과 얼마나 다른가"를 측정함. 이 값을 최소화하는 것이 곧 MLE.


4. 최적화 — 학습의 엔진

4.1 왜 최적화인가

ML 학습 = 손실 함수를 최소화하는 파라미터를 찾는 최적화 문제. 최적화 방법을 이해하면 학습이 왜 수렴하거나 발산하는지, 학습률을 왜 조정해야 하는지를 이해할 수 있음.

4.2 경사하강법 (Gradient Descent)

w ← w - α × ∂L/∂w

가중치 = 가중치 - 학습률 × 기울기

변형:

방법배치 크기특징
Batch GD전체 데이터안정적이지만 느림. 메모리 많이 필요
Stochastic GD (SGD)1개빠르지만 불안정. 노이즈가 큼
Mini-batch GD32~512✅ 실전 표준. 속도와 안정성의 균형

4.3 고급 옵티마이저

SGD의 문제를 해결하기 위해 다양한 옵티마이저가 개발됨.

옵티마이저핵심 아이디어사용
Momentum이전 이동 방향의 관성을 유지진동 감소
RMSProp각 파라미터별 학습률을 적응적으로 조절비대칭 기울기
AdamMomentum + RMSProp 결합✅ 가장 많이 사용
AdamWAdam + Weight Decay (L2 정규화 개선)✅ LLM 학습 표준

4.4 볼록 vs 비볼록

볼록 (Convex)비볼록 (Non-convex)
모양그릇 (최솟값 하나)울퉁불퉁 (최솟값 여러 개)
최적해전역 최적해 보장지역 최적해에 빠질 수 있음
예시선형 회귀Deep Neural Network
해결경사하강법으로 충분옵티마이저 선택, 학습률 스케줄러 필요

💡 Deep Learning의 손실 함수는 비볼록이라 전역 최적해를 보장할 수 없음. 하지만 실전에서는 "충분히 좋은" 지역 최적해를 찾는 것으로도 높은 성능을 달성함. 안장점(Saddle Point)을 탈출하는 것이 지역 최솟값보다 더 큰 문제인 경우가 많음.

4.5 학습률의 중요성

학습률결과
너무 큼발산 (손실이 증가)
너무 작음학습이 매우 느림, 지역 최적해에 갇힘
적절안정적으로 수렴

학습률 스케줄러: 학습 과정에서 학습률을 동적으로 조절

스케줄러동작용도
Step Decay일정 에폭마다 학습률 감소기본
Cosine Annealing코사인 곡선으로 감소일반적
Warmup + Cosine초기에 학습률을 점진적으로 올린 후 코사인 감소✅ LLM 학습 표준

5. 정리 — 수학 → ML 연결 맵

수학 개념ML에서의 역할어디서 만나는가
벡터/행렬/텐서데이터와 가중치의 표현모든 곳
행렬 곱셈Neural Network 레이어의 핵심 연산모든 레이어
내적유사도 측정Attention, 임베딩, SVM
고유값/고유벡터데이터의 주요 방향PCA
편미분각 가중치의 영향 측정역전파
체인 룰다층 네트워크의 그래디언트 계산역전파
확률 분포출력의 불확실성 표현소프트맥스, 분류
베이즈 정리사전 지식 + 데이터 → 예측나이브 베이즈, 베이지안
MLE학습의 근본 원리손실 함수 최소화
크로스 엔트로피예측과 정답의 차이분류 손실 함수
경사하강법가중치 업데이트모든 학습
Adam/AdamW효율적 최적화표준 옵티마이저

이 글의 수학은 ML/DL의 "왜?"를 이해하기 위한 최소한임. 각 개념은 이후 시리즈에서 실제 알고리즘과 함께 다시 만나게 됨.


다음 글

Machine Learning Overview — ML 정의, 학습 유형, 워크플로우, 편향-분산 트레이드오프


🔗 관련 문서


📝 참고 자료