Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [pdf]



Connectez-vous pour ajouter un commentaire