Sparse AutoencoderでGPT-2の感情を操るOpenAIのPretrained SAEでGPT-2内部の感情Featureを発見し、SAEをゼロから学習するまで。Feature Patchingで’good person’を’shit’に変える実験。