Activation Patching

Sparse AutoencoderでGPT-2の感情を操る

OpenAIのPretrained SAEでGPT-2内部の感情Featureを発見し、SAEをゼロから学習するまで。Feature Patchingで’good person’を’shit’に変える実験。