强化学习,Q-learning的收敛性如何证明?

找到了一个证明 http://users.isr.ist.utl.pt/~mtjspaan/readingGroup/ProofQlearning.p…
关注者
136
被浏览
69,064
登录后你可以
不限量看优质回答 私信答主深度交流 精彩内容一键收藏

想起来,Q-Learning如果是离散state-action space是可以证明的,而连续空间使用function approximation的off-policy learning之前已有人证明存在不收敛的情况,因此,通常意义上的Q Learning的收敛性应该是无法被证明的,参考下面文章