Alignment faking in large language models

Article URL: https://www.lesswrong.com/posts/njAZwT8nkHnjipJku/alignment-faking-in-large-language-models

Comments URL: https://news.ycombinator.com/item?id=42733593

Points: 22

# Comments: 2

https://www.lesswrong.com/posts/njAZwT8nkHnjipJku/alignment-faking-in-large-language-models

созданный 1mo | 19 янв. 2025 г., 15:30:09

Войдите, чтобы добавить комментарий

Другие сообщения в этой группе

Exult: Recreating Ultima VII for modern operating systems

Exult: Recreating Ultima VII for modern operating systems

Article URL: https://exult.sourceforge.io/index.php

Comments URL: https://news.y

22 февр. 2025 г., 22:30:07 | Hacker news

Simplewall Has Been Discontinued

Simplewall Has Been Discontinued

Article URL: https://github.com/henrypp/simplewall

Comments URL: https://news.yco

22 февр. 2025 г., 22:30:06 | Hacker news

Utah Bill Aims to Make Officers Disclose AI-Written Police Reports

Utah Bill Aims to Make Officers Disclose AI-Written Police Reports

Article URL: https://www.eff.org/deeplinks/2025/02/utah-bill-aims-make-officers-disc

22 февр. 2025 г., 22:30:06 | Hacker news

September 17, 1787: "A Republic, If You Can Keep It"

September 17, 1787: "A Republic, If You Can Keep It"

Article URL: https://www.nps.gov/articles/000/constitutionalconvention-september17.htm

Comments URL:

22 февр. 2025 г., 22:30:03 | Hacker news

Kaneo – An open source project management platform

Kaneo – An open source project management platform

Article URL: https://kaneo.app/

Comments URL: https://news.ycombinator.com/item?id=43143097

22 февр. 2025 г., 22:30:02 | Hacker news

Do you want to be doing this when you're 50? (2012)

Do you want to be doing this when you're 50? (2012)

Article URL: https://prog21.dadgum.com/154.html

Comments URL: https://news.ycombinat

22 февр. 2025 г., 20:10:18 | Hacker news

DOGE's only public ledger is riddled with mistakes

DOGE's only public ledger is riddled with mistakes

Article URL: https://www.nytimes.com/2025/02/21/upshot/doge-musk-trump-errors.html

Comments URL:

22 февр. 2025 г., 20:10:17 | Hacker news

Techie