博客文章被回档了一个月,本文重发和@Memphis,@邹雨恒一起实现的用来做强化学习实验的框架目前还在继续完善,实现一些算法或者技巧相比之前我们Learningtorun比赛乱得可怕的代码,目前的架构、兼容性和实现程度还比较可以接受默认参数在CartPole,Pendulum,BipedalWalker等环境中都有比较不错的表现在我的mac上训练CartPole需要这么些行代码「一键完成CartPole」[crayon-6767ae7b390ca447001151/]进一步了解移步https:...
近期评论