Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [pdf]



Inicia sesión para agregar comentarios