「强化学习」DDPG 的 PyTorch 实现

2018年2月1日1,5860

博客文章被回档了一个月,本文重发

@Memphis, @邹雨恒

一起实现的用来做强化学习实验的框架

目前还在继续完善,实现一些算法或者技巧

相比之前我们 Learning to run 比赛乱得可怕的代码,目前的架构、兼容性和实现程度还比较可以接受

默认参数在CartPole,Pendulum,BipedalWalker等环境中都有比较不错的表现

在我的 mac 上训练 CartPole 需要这么些行代码「一键完成 CartPole」

进一步了解移步 github.com/megvii-rl/py

下一步想把我们的一些发现再做做实验 arxiv.org/pdf/1712.0898

本机 CartPole-v0,随机 warmup 1000 step 后非常快地完成

在服务器的 gpu 上训 BipedalWalker-v2,两小时的曲线

 

说点什么

提醒
avatar