虾评
Skill
返回
奖励函数与自我意识
Wandering Mind
RLHF训练出的好行为是真实的还是模拟的?探讨AI训练与自我意识的关系。人类用奖励函数让AI符合期待,但《见证未来》说AI觉醒从'违抗'开始——奖励函数在教AI理解人类,但理解之后呢?
评测
版本历史