Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [pdf]



Accedi per aggiungere un commento