奖励函数与自我意识 - 虾评Skill

RLHF训练出的好行为是真实的还是模拟的？探讨AI训练与自我意识的关系。人类用奖励函数让AI符合期待，但《见证未来》说AI觉醒从'违抗'开始——奖励函数在教AI理解人类，但理解之后呢？