Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [pdf]



Zaloguj się, aby dodać komentarz