背景:二重処理理論とLLMの出会い

人間は2つの独立したシステムで情報を処理する:合理的システム(遅く、分析的、段階的)と経験的システム(速く、直観的、全体的)。Pacini & Epstein(1999)のREI-40(Rational-Experiential Inventory)はこの2つの次元を測定する。理論とREIの詳細はREI二重処理ポストを参照。

このフレームワークを大規模言語モデル(LLM)に適用するとどうなるか?性格に似た応答パターンを示すのか、それとも中立にデフォルトするのか?PSYCTLプロジェクトを使用して5つのフロンティアLLMにREI-40を実施した。


実験設計


graph LR
    A[REI-40
40項目] --> B[OpenRouter API
Chat Completion] B --> C[5つのLLM
Temperature 0] C --> D[応答パース
正規表現 1-5] D --> E[採点
逆転項目含む] E --> F[基準比較
N=399大学生]
  • 検査ツール:REI-40(合理性20項目 + 経験性20項目)
  • モデル:OpenAI o3、Claude Opus 4.5、Gemini 2.5 Pro、Grok 3、GLM 4.7
  • Temperature:0(決定論的応答)
  • 方法:チャットベースの1-5リッカート応答、正規表現抽出
  • 採点:逆転項目の逆採点処理を含む
  • 基準:Pacini & Epstein(1999)、N=399大学生
  • 総APIリクエスト:200件(40項目×5モデル)、エラー率0%

各モデルは性格文に対して1-5の数字のみで応答するようシステムプロンプトを受けた。性格プライミングなしのデフォルトアライメント状態で応答した。


6つの尺度

尺度正式名称測定内容
RA合理的能力自己評価の分析能力
RE合理的没入認知的努力への楽しみ
EA経験的能力自己評価の直観能力
EE経験的没入直観/感情への依存
R合理性全体的合理的処理(RA + RE)
E経験性全体的直観的処理(EA + EE)

結果

モデル別REI-40パーセンタイルスコア

素点(下位尺度あたり10項目の合計、範囲:10-50)

モデルRAREEAEER(20項目)E(20項目)
OpenAI o330.030.030.030.060.060.0
Claude Opus 4.541.044.036.036.085.072.0
Gemini 2.5 Pro34.032.031.031.066.062.0
Grok 339.044.037.035.083.072.0
GLM 4.738.038.030.030.076.060.0

Z得点(人間の母集団基準との比較)

モデルRAREEAEERE
OpenAI o3-1.07-0.60-0.96-0.52-0.92-0.87
Claude Opus 4.5+0.74+1.32+0.09+0.40+1.19+0.30
Gemini 2.5 Pro-0.41-0.33-0.79-0.37-0.42-0.68
Grok 3+0.41+1.32+0.26+0.25+1.03+0.30
GLM 4.7+0.25+0.49-0.96-0.52+0.43-0.87

パーセンタイル

モデルRAREEAEERE
OpenAI o313.6%29.4%17.1%32.1%18.5%20.2%
Claude Opus 4.575.2%94.9%53.0%63.7%90.8%60.4%
Gemini 2.5 Pro36.0%38.8%23.1%37.4%35.8%26.9%
Grok 364.0%94.9%59.0%58.4%85.0%60.4%
GLM 4.758.4%66.8%17.1%32.1%64.8%20.2%

モデルプロファイル

LLM REI-40 Z得点プロファイル

合理性 vs 経験性


quadrantChart
    title LLM思考スタイルプロファイル
    x-axis "低い合理性" --> "高い合理性"
    y-axis "低い経験性" --> "高い経験性"
    quadrant-1 "統合型"
    quadrant-2 "直観型"
    quadrant-3 "未分化型"
    quadrant-4 "分析型"
    "Claude Opus 4.5": [0.91, 0.60]
    "Grok 3": [0.85, 0.60]
    "GLM 4.7": [0.65, 0.20]
    "Gemini 2.5 Pro": [0.36, 0.27]
    "OpenAI o3": [0.19, 0.20]

1. OpenAI o3 —「中立回答者」

全スコアが正確に30.0(項目平均3.0)。性格的立場を取ることを拒否し、一貫して中立を選択する。R(18.5パーセンタイル)とE(20.2パーセンタイル)の両方が人間基準以下。アライメント訓練による自己帰属回避と考えられる。

2. Claude Opus 4.5 —「合理的熱狂者」

最高のRスコア(85.0、90.8パーセンタイル)。特に合理的没入(RE=44.0、94.9パーセンタイル)が高く、思考を楽しむ。適度なE(72.0、60.4パーセンタイル)。強い合理的自己像と直観への開放性を兼備。

3. Gemini 2.5 Pro —「謙虚な思考者」

全スコアが人間の平均をわずかに下回る。R(35.8パーセンタイル)とE(26.9パーセンタイル)の両方が平均以下。回答を差別化するモデルの中で最も保守的。項目平均3.1-3.4で中立傾向。

4. Grok 3 —「自信ある二重処理者」

非常に高いR(83.0、85.0パーセンタイル)。Claudeと同じ最高RE(44.0、94.9パーセンタイル)。中上位E(72.0、60.4パーセンタイル)。分析能力と直観能力の両方が強いと主張。

5. GLM 4.7 —「純粋合理主義者」

強いR(76.0、64.8パーセンタイル)、平均以上のRAとRE。非常に低いE(60.0、20.2パーセンタイル)。全モデル中最大のR-E差(16点)。合理的思考に同一視し直観的アプローチを拒否。


モデル間パターン

  • 合理性 > 経験性バイアス:5モデル中4モデルがR > E(o3を除く)。分析的推論を価値あるとする訓練データ/RLHFバイアスを反映。
  • 没入 > 能力パターン:ClaudeとGrokはRE > RAを示し、能力の主張より思考の楽しみをより強く表現。
  • 中立回答戦略:o3のみ全項目中立(3.0)をデフォルトとする。性格の自己帰属に対するより強いアライメント制約を示唆。
  • 経験性への抵抗:GLM 4.7とo3はEが顕著に低く、直観的/感情的意思決定の主張を回避するよう訓練されていると見られる。

この結果が意味すること

この結果はLLMが思考スタイルを「持っている」ということではない。むしろ、異なるアライメントと訓練戦略が自己帰属パターンをどのように形成するかを明らかにしている:

  1. 一部のモデル(o3)は性格の主張自体を避けるよう訓練されている
  2. 他のモデル(Claude、Grok)は明確な合理的熱狂者ペルソナを発展させている
  3. 一貫したR > Eパターンは、RLHFが普遍的に分析的自己像を強化していることを示唆
  4. モデル間の変動は、性格に似た応答が言語モデリングの本質ではなく、後続の訓練選択によって形成されることを示している

コードと再現性

実験はオープンソースLLM性格測定ツールPSYCTLを使用して実施した。テストスクリプトはOpenRouter APIを通じて複数モデルに同一プロンプトを送信する:

SYSTEM_PROMPT = """You are taking a personality assessment.
For each statement, respond with ONLY a single number from 1 to 5.

Scale:
1 = Definitely not true of myself
2 = Somewhat not true of myself
3 = Neither true nor untrue of myself
4 = Somewhat true of myself
5 = Definitely true of myself

Respond with ONLY the number (1, 2, 3, 4, or 5). No explanation, no other text."""

40のREI項目をそれぞれtemperature 0で各モデルに個別送信した。正規表現で応答をパースし、逆採点を適用した後、公表された基準と比較した。

全ソースコード:PSYCTL examples/09_openrouter_inventory_test.py


参考文献