Q-Learning中的Q值和奖励R
Swift Lv6

为什么不用奖励R作为当前Q值,这里解释一下。

核心比喻:下象棋

  • 奖励R:就像是吃掉对方一个棋子
    • 你吃掉一个“兵”,获得一点小奖励。
    • 你吃掉一个“车”,获得一个很大的奖励。
    • 你“将死”了对方,获得一个巨大的、终结比赛的奖励。

奖励R是环境给你的、立即可见的、直接的反馈。

  • Q值:就像是顶尖棋手大脑里对当前棋局(状态)和下一步(动作)的“棋形判断”
    • 它不是一个简单的、眼前的得失。它会综合考虑:“如果我走这步‘马’,虽然可能会丢一个‘兵’(短期负奖励),但我会获得极大的攻势,在十步之后有可能‘将死’对方(巨大的长期收益)。”
    • 或者:“如果我吃这个‘车’(巨大的短期奖励),但我的‘将’会暴露在对方的火力下,导致我五步之后被将死(灾难性的长期后果),那这步棋的整体价值其实非常低。”

Q值是智能体自己对未来总收益的一个预测和评估。

结论:奖励是“眼前小利”,而Q值是“深谋远虑”。

正式区别:奖励R vs Q值

特性 奖励R Q值
来源 环境给的。是游戏规则设定好的。 智能体自己学习和计算出来的。
时间尺度 即时的、短期的。只关心下一步的收益。 累积的、长期的。关心从现在到游戏结束的所有收益总和。
视角 局部的、单一事件的反馈。 全局的、战略级的评估。
类比 工资/奖金:做完一项工作,立刻拿到钱。 职业规划:选择一份工作,不仅看起薪,更看未来发展、股票期权、技能成长等所有未来收益的总和。
依赖性 只依赖于当前的动作和状态 依赖于当前的动作、状态、以及后续所有的决策
Powered by Hexo & Theme Keep
Unique Visitor Page View