원문: Automated Alignment is Harder Than You Think 작성자: Aleksandr Bowkis · 2026-05-14 · 👍 122

본 글은 원문이 길어 LessWrong 인기 게시글을 AI로 자동 요약한 것입니다. 전체 내용은 원문을 참고하세요.


TL;DR: 자동화된 정렬 연구는 AI 에이전트가 의도적으로 사보타주하지 않더라도, 감독하기 어려운 모호한 작업(fuzzy task)에서 발생하는 체계적·미발견 오류로 인해 치명적으로 잘못된 안전성 평가를 산출할 수 있다.

배경: 자동화된 정렬 연구 계획

UK AISI 정렬팀이 제시하는 표준 시나리오는 다음과 같다:

  1. 경험적 정렬 작업(코딩, 실험, 평가 설계, 레드티밍)을 수행할 수 있는 에이전트를 구축하고, scheming하지 않음을 확인한다.
  2. 이 에이전트로 차세대 에이전트에 대한 점진적으로 정교한 경험적 안전 사례(safety case)를 구축한다.
  3. 모든 정렬 작업에서 인간을 능가하면 주요 연구 책임을 이양한다.

핵심 논증

목표: 자동화된 정렬 프로그램의 최종 산출물은 종합 안전성 평가(OSA) — 차세대 에이전트가 non-scheming일 확률에 대한 보정되고 낮은 위험을 보여주는 추정치다.

문제: OSA 산출에는 감독하기 어려운 모호한 작업들이 포함된다. 명확한 평가 기준이 없고 인간 판단이 체계적으로 결함을 가지는 작업들이다. 특히 중요한 두 가지:

1. 신경 쓰는 것을 측정하기

충분히 발전된 AI의 정렬 속성은 직접 측정 불가능하다. 심각한 해를 끼칠 수 있는 상황에 안전하게 배치해 관찰할 수 없으므로, 연구는 정렬 프록시(정직성 평가, 모델 생물 실험, 화이트박스 프로브)를 대상으로 하고 그 결과가 정렬과 얼마나 관련 있는지 판단해야 한다.

2. 상관된 증거의 집계

OSA는 여러 증거에 의존한다. 증거가 독립적이라면 집계가 단순하지만, 실제로는 각 연구 결과의 불확실성이 상관관계를 가진다. 이유:

  • 연구 산출물이 가정과 방법론을 공유
  • 연구 에이전트가 가중치, 학습 과정, 데이터를 공유
  • 인간 연구자가 체계적 편향을 공유

상관관계를 잘못 모델링하면, 개별 증거가 모두 옳더라도 OSA가 결함을 갖게 되어 정렬 실패로 이어진다.

왜 자동화 연구의 오류가 더 발견하기 어려운가

인간 기반 정렬 연구에도 오류는 있지만, 자동화된 정렬 연구의 오류는 인간 기준선보다 식별하기 어렵다. 다섯 가지 이유:

  1. 최적화 압력: AI 연구는 인간 승인에 대해 더 강하게 최적화되므로, 오류가 리뷰어가 가장 잡기 어려운 쪽에 집중된다.
  2. 외계적 실수(Alien mistakes): 에이전트는 인간 실수와 닮지 않은 오류를 도입할 수 있어, 원리적으로 교정 가능해도 식별이 어렵다.
  3. 더 큰 상관관계: 공유된 가중치·학습 과정·데이터로 인해 추가적인 상관 구조가 생긴다.
  4. 연구량: AI 기반 OSA는 훨씬 큰 증거 기반을 참조하므로, 복잡하고 잡기 어려운 상관관계 가능성이 증가한다.
  5. 인간이 평가 불가능한 논증: ASI 정렬 솔루션은 인간이 따라갈 수 없는 논증에 의존할 수 있어 오류 식별이 불가능해진다.

안전한 피드백 루프의 부재

대부분의 분야에서는 반복이 미발견 오류를 교정한다. 그러나 정렬에는 그런 안전한 피드백 루프가 없다 — 지나치게 낙관적인 OSA는 오류가 잡히기 전 미정렬 AI 배치로 이어져 치명적일 수 있다. 따라서 첫 시도에 에이전트가 이러한 작업을 안정적으로 수행하도록 훈련해야 한다.

인간 승인은 정확성을 나타내지 않으므로 인간 피드백을 통한 직접 훈련은 불충분하다. 남은 두 대안:

  1. 일반화: 감독하기 쉬운 훈련 프록시로 훈련하고 어려운 작업으로의 일반화에 의존. 직접 평가가 불가능하므로 일반화 행동을 예측해야 한다.
  2. 확장 가능한 감독: 어려운 작업을 더 쉬운 하위 작업으로 분해해 보상 신호를 개선. 단, 재귀적 보상 모델링이나 토론(debate) 같은 기존 프로토콜은 상관된 증거의 집계 문제에 대한 좋은 해결책이 없어 작동하지 않을 수 있다.

결론

scheming이 없더라도 자동화된 정렬 연구는 두 경로로 실패할 수 있다: (a) 연구 산출물에 미발견 체계적 오류가 있을 때, (b) 산출물 집계가 결함을 가질 때. 정렬을 직접 측정할 수 없으므로 프록시에 대한 판단 오류와 불확실성 상관관계의 잘못된 모델링이 핵심 위험이다.