Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [pdf]



Melden Sie sich an, um einen Kommentar hinzuzufügen