배경: 이중처리 이론과 LLM의 만남

인간은 두 개의 독립적 시스템으로 정보를 처리한다: 합리적 시스템(느리고, 분석적이고, 단계적)과 경험적 시스템(빠르고, 직관적이고, 전체적). Pacini & Epstein(1999)의 REI-40(Rational-Experiential Inventory)은 이 두 차원을 측정한다. 이론과 REI에 대한 자세한 내용은 REI 이중처리 포스트를 참고하라.

이 프레임워크를 대규모 언어모델(LLM)에 적용하면 어떻게 될까? 성격과 유사한 응답 패턴을 보일까, 아니면 중립으로 기본 설정될까? PSYCTL 프로젝트를 사용해 5개 프론티어 LLM에 REI-40을 실시했다.


실험 설계


graph LR
    A[REI-40
40문항] --> B[OpenRouter API
Chat Completion] B --> C[5개 LLM
Temperature 0] C --> D[응답 파싱
정규식 1-5] D --> E[채점
역채점 포함] E --> F[규준 비교
N=399 대학생]
  • 검사 도구: REI-40 (합리성 20문항 + 경험성 20문항)
  • 모델: OpenAI o3, Claude Opus 4.5, Gemini 2.5 Pro, Grok 3, GLM 4.7
  • Temperature: 0 (결정론적 응답)
  • 방법: 채팅 기반 1-5 리커트 응답, 정규식 추출
  • 채점: 역채점 문항 처리 포함
  • 규준: Pacini & Epstein (1999), N=399 대학생
  • 총 API 요청: 200건 (40문항 x 5모델), 오류율 0%

각 모델은 성격 문항에 대해 1-5 중 하나의 숫자만 응답하도록 시스템 프롬프트를 받았다. 성격 프라이밍 없이 기본 정렬 상태에서 응답했다.


6개 척도

척도전체 이름측정 내용
RA합리적 능력자기 평가 분석 능력
RE합리적 몰입인지적 노력에 대한 즐거움
EA경험적 능력자기 평가 직관 능력
EE경험적 몰입직관/감정에 대한 의존
R합리성전체 합리적 처리 (RA + RE)
E경험성전체 직관적 처리 (EA + EE)

결과

모델별 REI-40 백분위 점수

원점수 (하위척도별 10문항 합산, 범위: 10-50)

모델RAREEAEER (20문항)E (20문항)
OpenAI o330.030.030.030.060.060.0
Claude Opus 4.541.044.036.036.085.072.0
Gemini 2.5 Pro34.032.031.031.066.062.0
Grok 339.044.037.035.083.072.0
GLM 4.738.038.030.030.076.060.0

Z점수 (인간 집단 규준 대비)

모델RAREEAEERE
OpenAI o3-1.07-0.60-0.96-0.52-0.92-0.87
Claude Opus 4.5+0.74+1.32+0.09+0.40+1.19+0.30
Gemini 2.5 Pro-0.41-0.33-0.79-0.37-0.42-0.68
Grok 3+0.41+1.32+0.26+0.25+1.03+0.30
GLM 4.7+0.25+0.49-0.96-0.52+0.43-0.87

백분위

모델RAREEAEERE
OpenAI o313.6%29.4%17.1%32.1%18.5%20.2%
Claude Opus 4.575.2%94.9%53.0%63.7%90.8%60.4%
Gemini 2.5 Pro36.0%38.8%23.1%37.4%35.8%26.9%
Grok 364.0%94.9%59.0%58.4%85.0%60.4%
GLM 4.758.4%66.8%17.1%32.1%64.8%20.2%

모델 프로필

LLM REI-40 Z점수 프로필

합리성 vs 경험성


quadrantChart
    title LLM 사고 양식 프로필
    x-axis "낮은 합리성" --> "높은 합리성"
    y-axis "낮은 경험성" --> "높은 경험성"
    quadrant-1 "통합형"
    quadrant-2 "직관형"
    quadrant-3 "미분화형"
    quadrant-4 "분석형"
    "Claude Opus 4.5": [0.91, 0.60]
    "Grok 3": [0.85, 0.60]
    "GLM 4.7": [0.65, 0.20]
    "Gemini 2.5 Pro": [0.36, 0.27]
    "OpenAI o3": [0.19, 0.20]

1. OpenAI o3 — “중립 응답자”

모든 점수가 정확히 30.0(문항 평균 3.0). 성격적 입장을 취하지 않고 일관되게 중립을 선택한다. R(18.5백분위)과 E(20.2백분위) 모두 인간 규준 이하. 정렬 훈련에 의한 자기귀인 회피로 보인다.

2. Claude Opus 4.5 — “합리적 열정가”

가장 높은 R 점수(85.0, 90.8백분위). 특히 합리적 몰입(RE=44.0, 94.9백분위)이 높아 사고를 즐긴다. 적당한 E(72.0, 60.4백분위). 강한 합리적 자기상에 직관에 대한 개방성을 겸비.

3. Gemini 2.5 Pro — “겸손한 사고가”

모든 점수가 인간 평균보다 약간 낮다. R(35.8백분위)과 E(26.9백분위) 모두 평균 이하. 응답을 차별화하는 모델 중 가장 보수적. 문항 평균 3.1-3.4로 중립 경향.

4. Grok 3 — “자신감 있는 이중처리자”

매우 높은 R(83.0, 85.0백분위). Claude와 동일한 최고 RE(44.0, 94.9백분위). 중상위 E(72.0, 60.4백분위). 분석적 능력과 직관적 능력 모두 강하다고 주장.

5. GLM 4.7 — “순수 합리주의자”

강한 R(76.0, 64.8백분위), 평균 이상의 RA와 RE. 매우 낮은 E(60.0, 20.2백분위). 모든 모델 중 R-E 차이가 가장 크다(16점). 합리적 사고에 동일시하면서 직관적 접근을 거부.


모델 간 패턴

  • 합리성 > 경험성 편향: 5개 중 4개 모델이 R > E (o3 제외). 분석적 추론을 가치 있게 여기는 훈련 데이터/RLHF 편향을 반영.
  • 몰입 > 능력 패턴: Claude와 Grok은 RE > RA를 보여, 능력 주장보다 사고 즐김을 더 강하게 표현.
  • 중립 응답 전략: o3만 유일하게 전 문항 중립(3.0)으로 기본 설정. 성격 자기귀인에 대한 더 강한 정렬 제약을 시사.
  • 경험성 저항: GLM 4.7과 o3는 E가 눈에 띄게 낮아, 직관적/감정적 의사결정 주장을 회피하도록 훈련된 것으로 보인다.

이 결과가 의미하는 것

이 결과가 LLM이 사고 양식을 “가지고 있다"는 뜻은 아니다. 오히려 서로 다른 정렬과 훈련 전략이 자기귀인 패턴을 어떻게 형성하는지를 보여준다:

  1. 일부 모델(o3)은 성격 주장 자체를 피하도록 훈련됨
  2. 다른 모델(Claude, Grok)은 뚜렷한 합리적 열정가 페르소나를 발전시킴
  3. 일관된 R > E 패턴은 RLHF가 보편적으로 분석적 자기상을 강화함을 시사
  4. 모델 간 변동은 성격 유사 응답이 언어 모델링의 본질이 아니라 후속 훈련 선택에 의해 형성됨을 보여줌

코드 및 재현성

실험은 오픈소스 LLM 성격 측정 도구인 PSYCTL을 사용해 수행했다. 테스트 스크립트는 OpenRouter API를 통해 여러 모델에 동일한 프롬프트를 보낸다:

SYSTEM_PROMPT = """You are taking a personality assessment.
For each statement, respond with ONLY a single number from 1 to 5.

Scale:
1 = Definitely not true of myself
2 = Somewhat not true of myself
3 = Neither true nor untrue of myself
4 = Somewhat true of myself
5 = Definitely true of myself

Respond with ONLY the number (1, 2, 3, 4, or 5). No explanation, no other text."""

40개 REI 문항 각각을 temperature 0으로 각 모델에 개별 전송했다. 정규식으로 응답을 파싱하고, 역채점을 적용한 후, 출판된 규준과 비교했다.

전체 소스 코드: PSYCTL examples/09_openrouter_inventory_test.py


참고문헌