SAE | 3rd layer

OpenAI의 Pretrained SAE로 GPT-2 내부의 감정 Feature를 찾아내고, 직접 SAE를 학습하는 과정까지. Feature Patching으로 ‘good person’을 ‘shit’로 바꾸는 실험.