breakout-v0的action_space有4个动作,分别是0-NOOP,1-FIRE,2-RIGHT,3-LEFT。之前一直以为环境默认发出小球供击打,其实发出小球需要智能体做出动作1-FIRE。而我的模型没有学会在一小轮失败后做出动作1,故一直环境停滞不前。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐