Sparse Autoencoder로 GPT-2의 감정을 조종하기
OpenAI의 Pretrained SAE로 GPT-2 내부의 감정 Feature를 찾아내고, 직접 SAE를 학습하는 과정까지. Feature Patching으로 ‘good person’을 ‘shit’로 바꾸는 실험.
OpenAI의 Pretrained SAE로 GPT-2 내부의 감정 Feature를 찾아내고, 직접 SAE를 학습하는 과정까지. Feature Patching으로 ‘good person’을 ‘shit’로 바꾸는 실험.