AI를 위한 수학 기초

증명이 아니라 직관 — ML/DL에서 이 수학이 왜 필요하고 어떻게 사용되는가

📌 이 글의 목적

ML/DL을 이해하려면 수학이 필요하지만, 수학과 전공 수준이 필요한 것은 아님. 이 글은 AI에서 사용되는 수학의 핵심 개념과 직관을 정리하며, 각 개념이 ML/DL에서 어디에, 왜 사용되는지를 설명하는 데 집중함.

이 글을 읽고 나면:

벡터, 행렬, 텐서가 ML에서 데이터를 어떻게 표현하는지 이해할 수 있음
역전파(Backpropagation)가 왜 체인 룰 기반인지 설명할 수 있음
크로스 엔트로피 손실 함수의 수학적 의미를 이해할 수 있음
경사하강법이 왜 "기울기의 반대 방향으로 이동"하는지 직관적으로 이해할 수 있음

1. 선형대수 — 데이터의 표현과 변환

1.1 왜 선형대수인가

ML에서 모든 데이터는 **숫자의 배열(벡터, 행렬, 텐서)**로 표현됨. Neural Network의 핵심 연산은 행렬 곱셈임. 선형대수를 모르면 모델이 데이터를 어떻게 처리하는지 이해할 수 없음.

1.2 벡터, 행렬, 텐서

개념	차원	ML에서의 의미	예시
스칼라	0	단일 값	학습률 `α = 0.001`
벡터	1	하나의 데이터 포인트, 또는 하나의 특성	키/몸무게/나이 = `[175, 70, 30]`
행렬	2	데이터셋, 또는 가중치	100명의 3개 특성 = `(100, 3)` 행렬
텐서	3+	이미지, 배치, 시퀀스	컬러 이미지 = `(높이, 너비, 채널)` 3D 텐서

스칼라:  42
벡터:   [1, 2, 3]
행렬:   [[1, 2, 3],
         [4, 5, 6]]
텐서:   [[[1,2], [3,4]],
         [[5,6], [7,8]]]   ← 3D

ML에서의 활용:

데이터	텐서 형태	설명
표형 데이터	`(샘플 수, 특성 수)`	2D 행렬
이미지	`(높이, 너비, 채널)`	3D (흑백은 채널=1, 컬러는 3)
이미지 배치	`(배치, 높이, 너비, 채널)`	4D
텍스트 시퀀스	`(배치, 시퀀스 길이, 임베딩 차원)`	3D

1.3 행렬 곱셈 — Neural Network의 핵심

Neural Network의 하나의 레이어는 본질적으로 행렬 곱셈 + 활성화 함수임.

출력 = 활성화함수(입력 × 가중치 + 편향)
 y  =     σ      ( x  ·  W    +  b  )

입력이 3차원, 출력이 2차원인 레이어:

x = [x₁, x₂, x₃]          ← 1×3 벡터

W = [[w₁₁, w₁₂],
     [w₂₁, w₂₂],           ← 3×2 행렬 (가중치)
     [w₃₁, w₃₂]]

b = [b₁, b₂]               ← 1×2 벡터 (편향)

z = x · W + b               ← 1×2 벡터
y = σ(z)                    ← 1×2 벡터 (출력)

💡 Neural Network의 "학습"이란 이 가중치 행렬 W의 값을 조정하는 것. 수십억 개의 파라미터를 가진 LLM도 본질은 거대한 행렬 곱셈의 연쇄임.

1.4 내적(Dot Product) — 유사도의 수학

두 벡터의 내적은 유사도를 측정하는 가장 기본적인 방법임.

a · b = |a| × |b| × cos(θ)

두 벡터가 같은 방향 → 내적 큼 (유사)
두 벡터가 직교 → 내적 0 (무관)
두 벡터가 반대 방향 → 내적 음수 (반대)

ML에서의 활용:

활용	설명
코사인 유사도	임베딩 벡터 간 유사도 측정 (RAG, 추천 시스템)
Attention	Query와 Key의 내적으로 "관련성 점수" 계산 (Transformer 핵심)
SVM	커널 함수의 기반

💡 Transformer의 Self-Attention은 본질적으로 "Query 벡터와 Key 벡터의 내적을 계산하여 유사도를 구하고, 그 유사도로 Value 벡터를 가중합"하는 것임. 내적을 이해하면 Attention을 이해할 수 있음.

1.5 고유값/고유벡터

행렬 A에 대해 A·v = λ·v를 만족하는 벡터 v가 고유벡터, λ가 고유값.

직관: 행렬 변환을 적용해도 방향이 바뀌지 않는 벡터
ML 활용: PCA(주성분 분석)에서 데이터의 분산이 가장 큰 방향을 찾는 데 사용

2. 미적분 — 모델이 학습하는 원리

2.1 왜 미적분인가

Neural Network의 학습은 **"손실 함수를 최소화하는 가중치를 찾는 것"**임. 손실 함수의 최솟값을 찾으려면 기울기(미분) 를 계산해야 함. 미적분이 없으면 모델이 왜 학습되는지 이해할 수 없음.

2.2 편미분 — 가중치별 영향 측정

손실 함수 L이 여러 가중치(w₁, w₂, ...)에 의존할 때, 각 가중치가 손실에 미치는 영향을 개별적으로 측정하는 것이 편미분.

∂L/∂w₁ = w₁이 조금 변할 때 L이 얼마나 변하는가
∂L/∂w₂ = w₂가 조금 변할 때 L이 얼마나 변하는가

편미분 값이 크면 → 그 가중치가 손실에 큰 영향을 미침
편미분 값이 양수면 → 가중치를 줄여야 손실이 줄어듦
편미분 값이 음수면 → 가중치를 늘려야 손실이 줄어듦

2.3 그래디언트 — 모든 편미분의 벡터

그래디언트는 모든 가중치에 대한 편미분을 모은 벡터임.

∇L = [∂L/∂w₁, ∂L/∂w₂, ..., ∂L/∂wₙ]

그래디언트의 방향 = 손실이 가장 빠르게 증가하는 방향
그래디언트의 반대 방향 = 손실이 가장 빠르게 감소하는 방향
경사하강법: 그래디언트의 반대 방향으로 가중치를 업데이트

w_new = w_old - α × ∇L

(α는 학습률)

2.4 체인 룰 — 역전파의 수학적 기반

Neural Network는 여러 레이어가 연쇄적으로 합성된 함수임. 각 레이어의 가중치에 대한 그래디언트를 구하려면 **체인 룰(연쇄 법칙)**이 필요함.

합성 함수: y = f(g(h(x)))

체인 룰:
dy/dx = dy/dg × dg/dh × dh/dx

**역전파(Backpropagation)**는 출력에서 입력 방향으로 체인 룰을 적용하여 각 가중치의 그래디언트를 효율적으로 계산하는 알고리즘임.

단계	방향	하는 일
순전파(Forward)	입력 → 출력	각 레이어의 출력을 순차적으로 계산
역전파(Backward)	출력 → 입력	체인 룰로 각 가중치의 그래디언트를 역순 계산

💡 Deep Neural Network가 학습 가능한 이유가 바로 체인 룰 + 역전파. 레이어가 아무리 깊어도 그래디언트를 체계적으로 계산할 수 있음. (다만 기울기 소실/폭발 문제는 별도)

3. 확률과 통계 — 불확실성의 수학

3.1 왜 확률인가

ML은 본질적으로 **"데이터에서 패턴을 찾아 불확실한 미래를 예측"**하는 것임. 확률은 이 불확실성을 수학적으로 다루는 도구.

3.2 확률 분포

분포	설명	ML 활용
정규 분포 (가우시안)	종 모양, 자연계 많은 현상	가중치 초기화, 노이즈 모델링
베르누이	0 또는 1 (이진)	이진 분류 (스팸/정상)
카테고리컬	k개 중 하나	다중 분류 (개/고양이/새)
소프트맥스	카테고리컬의 연속 버전	Neural Network의 마지막 레이어에서 확률 출력

소프트맥스 함수:

softmax(zᵢ) = e^zᵢ / Σⱼ e^zⱼ

입력: 임의의 실수 벡터 (logits)
출력: 0~1 사이의 확률 (합계 = 1)
Neural Network의 분류 레이어에서 "각 클래스의 확률"을 계산하는 데 사용

3.3 베이즈 정리

P(A|B) = P(B|A) × P(A) / P(B)

사후확률 = 우도 × 사전확률 / 증거

사전 확률 P(A): 데이터를 보기 전의 믿음
우도 P(B|A): A가 참일 때 B를 관찰할 확률
사후 확률 P(A|B): 데이터 B를 본 후 A에 대한 업데이트된 믿음

ML 활용:

활용	설명
나이브 베이즈 분류기	스팸 필터 등에서 가장 간단한 확률적 분류
베이지안 최적화	하이퍼파라미터 튜닝
사전 학습 → 파인튜닝	사전 확률(대규모 데이터) → 사후 확률(특정 태스크)

3.4 최대우도추정 (MLE)

"데이터를 가장 잘 설명하는 파라미터를 찾자" — ML 학습의 근본 원리.

θ* = argmax P(Data | θ)
     θ

"관찰된 데이터가 발생할 확률을 최대화하는 파라미터 θ를 찾아라"

Neural Network의 학습도 본질적으로 MLE (또는 MAP)
크로스 엔트로피 손실 함수를 최소화하는 것 = 로그 우도를 최대화하는 것 (동치)

3.5 정보 이론 — 엔트로피와 크로스 엔트로피

엔트로피: 확률 분포의 불확실성/정보량을 측정

H(p) = -Σ pᵢ × log(pᵢ)

모든 클래스가 동일 확률 → 엔트로피 최대 (불확실성 큼)
하나의 클래스가 확률 1 → 엔트로피 0 (불확실성 없음)

크로스 엔트로피: 두 분포 p(정답)와 q(예측) 간의 차이를 측정

H(p, q) = -Σ pᵢ × log(qᵢ)

항목	설명
p	정답 분포 (one-hot: [0, 1, 0])
q	모델의 예측 분포 ([0.1, 0.8, 0.1])
H(p, q)	예측이 정답과 얼마나 다른가

💡 크로스 엔트로피 손실 함수는 ML에서 가장 많이 사용되는 손실 함수. 분류 문제에서 "모델의 예측 확률이 정답과 얼마나 다른가"를 측정함. 이 값을 최소화하는 것이 곧 MLE.

4. 최적화 — 학습의 엔진

4.1 왜 최적화인가

ML 학습 = 손실 함수를 최소화하는 파라미터를 찾는 최적화 문제. 최적화 방법을 이해하면 학습이 왜 수렴하거나 발산하는지, 학습률을 왜 조정해야 하는지를 이해할 수 있음.

4.2 경사하강법 (Gradient Descent)

w ← w - α × ∂L/∂w

가중치 = 가중치 - 학습률 × 기울기

변형:

방법	배치 크기	특징
Batch GD	전체 데이터	안정적이지만 느림. 메모리 많이 필요
Stochastic GD (SGD)	1개	빠르지만 불안정. 노이즈가 큼
Mini-batch GD	32~512	✅ 실전 표준. 속도와 안정성의 균형

4.3 고급 옵티마이저

SGD의 문제를 해결하기 위해 다양한 옵티마이저가 개발됨.

옵티마이저	핵심 아이디어	사용
Momentum	이전 이동 방향의 관성을 유지	진동 감소
RMSProp	각 파라미터별 학습률을 적응적으로 조절	비대칭 기울기
Adam	Momentum + RMSProp 결합	✅ 가장 많이 사용
AdamW	Adam + Weight Decay (L2 정규화 개선)	✅ LLM 학습 표준

4.4 볼록 vs 비볼록

	볼록 (Convex)	비볼록 (Non-convex)
모양	그릇 (최솟값 하나)	울퉁불퉁 (최솟값 여러 개)
최적해	전역 최적해 보장	지역 최적해에 빠질 수 있음
예시	선형 회귀	Deep Neural Network
해결	경사하강법으로 충분	옵티마이저 선택, 학습률 스케줄러 필요

💡 Deep Learning의 손실 함수는 비볼록이라 전역 최적해를 보장할 수 없음. 하지만 실전에서는 "충분히 좋은" 지역 최적해를 찾는 것으로도 높은 성능을 달성함. 안장점(Saddle Point)을 탈출하는 것이 지역 최솟값보다 더 큰 문제인 경우가 많음.

4.5 학습률의 중요성

학습률	결과
너무 큼	발산 (손실이 증가)
너무 작음	학습이 매우 느림, 지역 최적해에 갇힘
적절	안정적으로 수렴

학습률 스케줄러: 학습 과정에서 학습률을 동적으로 조절

스케줄러	동작	용도
Step Decay	일정 에폭마다 학습률 감소	기본
Cosine Annealing	코사인 곡선으로 감소	일반적
Warmup + Cosine	초기에 학습률을 점진적으로 올린 후 코사인 감소	✅ LLM 학습 표준

5. 정리 — 수학 → ML 연결 맵

수학 개념	ML에서의 역할	어디서 만나는가
벡터/행렬/텐서	데이터와 가중치의 표현	모든 곳
행렬 곱셈	Neural Network 레이어의 핵심 연산	모든 레이어
내적	유사도 측정	Attention, 임베딩, SVM
고유값/고유벡터	데이터의 주요 방향	PCA
편미분	각 가중치의 영향 측정	역전파
체인 룰	다층 네트워크의 그래디언트 계산	역전파
확률 분포	출력의 불확실성 표현	소프트맥스, 분류
베이즈 정리	사전 지식 + 데이터 → 예측	나이브 베이즈, 베이지안
MLE	학습의 근본 원리	손실 함수 최소화
크로스 엔트로피	예측과 정답의 차이	분류 손실 함수
경사하강법	가중치 업데이트	모든 학습
Adam/AdamW	효율적 최적화	표준 옵티마이저

이 글의 수학은 ML/DL의 "왜?"를 이해하기 위한 최소한임. 각 개념은 이후 시리즈에서 실제 알고리즘과 함께 다시 만나게 됨.

→ Machine Learning Overview — ML 정의, 학습 유형, 워크플로우, 편향-분산 트레이드오프

🔗 관련 문서

AI & ML Series Index — 시리즈 목차

AI를 위한 수학 기초

📌 이 글의 목적

1. 선형대수 — 데이터의 표현과 변환

1.1 왜 선형대수인가

1.2 벡터, 행렬, 텐서

1.3 행렬 곱셈 — Neural Network의 핵심

1.4 내적(Dot Product) — 유사도의 수학

1.5 고유값/고유벡터

2. 미적분 — 모델이 학습하는 원리

2.1 왜 미적분인가

2.2 편미분 — 가중치별 영향 측정

2.3 그래디언트 — 모든 편미분의 벡터

2.4 체인 룰 — 역전파의 수학적 기반

3. 확률과 통계 — 불확실성의 수학

3.1 왜 확률인가

3.2 확률 분포

3.3 베이즈 정리

3.4 최대우도추정 (MLE)

3.5 정보 이론 — 엔트로피와 크로스 엔트로피

4. 최적화 — 학습의 엔진

4.1 왜 최적화인가

4.2 경사하강법 (Gradient Descent)

4.3 고급 옵티마이저

4.4 볼록 vs 비볼록

4.5 학습률의 중요성

5. 정리 — 수학 → ML 연결 맵

다음 글

🔗 관련 문서

📝 참고 자료

📌 이 글의 목적​

1. 선형대수 — 데이터의 표현과 변환​

1.1 왜 선형대수인가​

1.2 벡터, 행렬, 텐서​

1.3 행렬 곱셈 — Neural Network의 핵심​

1.4 내적(Dot Product) — 유사도의 수학​

1.5 고유값/고유벡터​

2. 미적분 — 모델이 학습하는 원리​

2.1 왜 미적분인가​

2.2 편미분 — 가중치별 영향 측정​

2.3 그래디언트 — 모든 편미분의 벡터​

2.4 체인 룰 — 역전파의 수학적 기반​

3. 확률과 통계 — 불확실성의 수학​

3.1 왜 확률인가​

3.2 확률 분포​

3.3 베이즈 정리​

3.4 최대우도추정 (MLE)​

3.5 정보 이론 — 엔트로피와 크로스 엔트로피​

4. 최적화 — 학습의 엔진​

4.1 왜 최적화인가​

4.2 경사하강법 (Gradient Descent)​

4.3 고급 옵티마이저​

4.4 볼록 vs 비볼록​

4.5 학습률의 중요성​

5. 정리 — 수학 → ML 연결 맵​

다음 글​

🔗 관련 문서​

📝 참고 자료​

📌 이 글의 목적

1. 선형대수 — 데이터의 표현과 변환

1.1 왜 선형대수인가

1.2 벡터, 행렬, 텐서

1.3 행렬 곱셈 — Neural Network의 핵심

1.4 내적(Dot Product) — 유사도의 수학

1.5 고유값/고유벡터

2. 미적분 — 모델이 학습하는 원리

2.1 왜 미적분인가

2.2 편미분 — 가중치별 영향 측정

2.3 그래디언트 — 모든 편미분의 벡터

2.4 체인 룰 — 역전파의 수학적 기반

3. 확률과 통계 — 불확실성의 수학

3.1 왜 확률인가

3.2 확률 분포

3.3 베이즈 정리

3.4 최대우도추정 (MLE)

3.5 정보 이론 — 엔트로피와 크로스 엔트로피

4. 최적화 — 학습의 엔진

4.1 왜 최적화인가

4.2 경사하강법 (Gradient Descent)

4.3 고급 옵티마이저

4.4 볼록 vs 비볼록

4.5 학습률의 중요성

5. 정리 — 수학 → ML 연결 맵

다음 글

🔗 관련 문서

📝 참고 자료