DQN算法训练atari游戏breakout,训练越往后越慢,游戏停滞不前
breakout-v0的action_space有4个动作,分别是0-NOOP,1-FIRE,2-RIGHT,3-LEFT。之前一直以为环境默认发出小球供击打,其实发出小球需要智能体做出动作1-FIRE。而我的模型没有学会在一小轮失败后做出动作1,故一直环境停滞不前。
·
breakout-v0的action_space有4个动作,分别是0-NOOP,1-FIRE,2-RIGHT,3-LEFT。之前一直以为环境默认发出小球供击打,其实发出小球需要智能体做出动作1-FIRE。而我的模型没有学会在一小轮失败后做出动作1,故一直环境停滞不前。
更多推荐
所有评论(0)