왜 정보 기하학이 중요한가
AI 모델이 학습한다는 것은 무엇일까요? 간단히 말하면, “틀린 정도를 줄여나가는 과정"입니다. 그런데 이 과정에는 숨겨진 질문이 있습니다.
“어느 방향으로, 얼마나 빠르게 바꿔야 가장 효율적일까?”
이 질문에 답하는 수학적 도구가 바로 정보 기하학(Information Geometry)입니다.
물리학에서 빌려온 비유
뉴턴의 운동 법칙을 떠올려 봅시다.
$$F = ma$$
- $F$ (힘): 물체를 밀어내는 원동력
- $m$ (질량): 변화에 저항하는 정도
- $a$ (가속도): 실제로 일어나는 변화의 속도
무거운 물체일수록 같은 힘으로도 천천히 움직입니다. AI의 학습도 이와 놀랍도록 비슷합니다.
graph LR
A["힘 (F)"] -->|"÷ 질량 (m)"| B["가속도 (a)"]
C["정보 불일치"] -->|"÷ 정보 관성"| D["학습 속도"]
style A fill:#ff9999
style C fill:#ff9999
style B fill:#99ff99
style D fill:#99ff99
1단계: “얼마나 틀렸는가” — KL 발산
AI 모델은 세상에 대한 “예측"을 가지고 있습니다. 이 예측이 실제와 얼마나 다른지를 측정하는 도구가 KL 발산(Kullback-Leibler Divergence)입니다.
$$D_{KL}(p | q_\theta) = \sum_x p(x) \log \frac{p(x)}{q_\theta(x)}$$
복잡해 보이지만, 핵심은 간단합니다.
- $p(x)$: 실제 세상의 패턴 (정답)
- $q_\theta(x)$: AI가 현재 믿고 있는 패턴 (예측)
- $D_{KL}$: 둘 사이의 “거리” (클수록 많이 틀림)
일상적인 비유로 생각하면, “일기 예보가 실제 날씨와 얼마나 빗나갔는지"를 수치로 표현한 것입니다.
이 값이 크면 → 모델은 많이 틀렸고 → 크게 변해야 합니다.
2단계: “변화를 밀어내는 힘” — 기울기
변화의 힘은 KL 발산의 기울기(Gradient)입니다. 산에서 가장 가파른 방향으로 공이 굴러가듯, AI도 “가장 빠르게 틀린 정도를 줄이는 방향"으로 움직이려 합니다.
$$\text{Force} = -\nabla_\theta D_{KL}(p | q_\theta)$$
마이너스 부호는 “틀림을 줄이는 방향"을 의미합니다. 산 위에서 내려오는 것이지, 올라가는 것이 아니니까요.
3단계: “변화에 대한 저항” — 피셔 정보 행렬
여기서 정보 기하학의 핵심 개념이 등장합니다. 피셔 정보 행렬(Fisher Information Matrix)입니다.
$$F_{ij}(\theta) = E_{q_\theta}\left[\frac{\partial \log q_\theta(x)}{\partial \theta_i} \cdot \frac{\partial \log q_\theta(x)}{\partial \theta_j}\right]$$
수식이 어렵게 느껴진다면, 이렇게 이해하면 됩니다.
“모델의 파라미터를 아주 살짝 바꿨을 때, 예측이 얼마나 민감하게 변하는가?”
- 피셔 정보가 크다 → 파라미터를 조금만 바꿔도 예측이 확 변한다 → “확고한 상태” → 변화에 저항
- 피셔 정보가 작다 → 파라미터를 바꿔도 예측이 별로 안 변한다 → “유연한 상태” → 쉽게 변화
물리학의 질량($m$)과 같은 역할을 합니다. 질량이 클수록 밀어도 잘 안 움직이듯, 피셔 정보가 클수록 모델은 쉽게 변하지 않습니다.
4단계: 모든 것을 합치면 — 자연 경사 하강법
이 세 가지를 뉴턴의 법칙처럼 결합하면, AI 학습의 핵심 방정식이 완성됩니다.
$$\Delta\theta = -F(\theta)^{-1} \nabla_\theta D_{KL}(p | q_\theta)$$
| 물리학 | 정보 기하학 | 의미 |
|---|---|---|
| 가속도 $a$ | 파라미터 변화 $\Delta\theta$ | 실제 일어나는 변화 |
| 힘 $F$ | KL 발산의 기울기 $\nabla D_{KL}$ | 변화를 일으키는 원동력 |
| 질량의 역수 $1/m$ | 피셔 정보의 역행렬 $F^{-1}$ | 변화에 대한 유연성 |
이것이 자연 경사 하강법(Natural Gradient Descent)입니다. “정보 공간에서 가장 효율적인 경로"를 따라 학습하는 방법입니다.
일반 경사 하강법 vs 자연 경사 하강법
일반적인 경사 하강법(SGD)은 단순히 “가장 가파른 방향"으로 움직입니다. 하지만 이것은 파라미터 공간의 좌표계에 의존합니다. 같은 문제라도 좌표계를 바꾸면 다른 방향으로 움직이게 됩니다.
자연 경사 하강법은 “정보적으로 가장 효율적인 방향"으로 움직입니다. 좌표계에 상관없이 항상 최적의 경로를 찾습니다.
graph TD
A["현재 모델 상태"] --> B{"어느 방향으로?"}
B -->|"일반 SGD"| C["파라미터 공간에서\n가장 가파른 방향"]
B -->|"자연 경사"| D["정보 공간에서\n가장 효율적인 방향"]
C --> E["좌표계에 따라\n경로가 달라짐"]
D --> F["항상 최단 경로"]
비유하자면, 일반 SGD는 지도의 격자선을 따라 걷는 것이고, 자연 경사 하강법은 실제 지형을 고려해서 가장 빠른 길을 찾는 것입니다.
실제로 어디에 쓰이는가
이 개념은 추상적인 이론이 아닙니다. 실제 AI 시스템에서 활발하게 사용됩니다.
- TRPO/PPO (강화학습): 로봇 제어, 게임 AI에서 사용하는 학습 알고리즘의 핵심
- Adam 옵티마이저: 가장 널리 쓰이는 딥러닝 최적화기의 설계 원리에 피셔 정보의 근사가 녹아 있음
핵심 정리
정보 기하학이 말하는 것은 결국 이것입니다.
“시스템의 학습 속도($\Delta\theta$)는, 예측 모델의 구조적 안정성($F$)에 의해 조정된, 정보 불일치의 기울기($\nabla D_{KL}$)에 비례한다.”
물리학의 $F=ma$가 물체의 운동을 설명하듯, 정보 기하학의 자연 경사 방정식은 “지능의 운동"을 설명합니다. 생명체의 적응, 신경망의 학습, 그리고 모든 예측 시스템의 진화를 하나의 수학적 틀로 이해할 수 있게 해줍니다.