• 深度强化学习介绍

    深度强化学习介绍

    作者水平有限,现学现卖,逐步施工。最后更新于2018.5.17概述强化学习的目标是需要学习一种策略,使得对于每一个状态,决策AI的动作。比如围棋的局面就是状态,我们想得到一种局面下的较优动作。如果把动作看做对状态这一个属性的标记,强化学习就可以类比为监督学习,这样策略就相当于一个分类或者回归器,主要的区别是,标记信息往往需要通过尝试、和环境进行交互获得。算法根据环境给予的反馈来调整策略。强化学习任务通常使用...

    02018年7月24日1,048强化学习
  • 「强化学习」DDPG 的 PyTorch 实现

    「强化学习」DDPG 的 PyTorch 实现

    博客文章被回档了一个月,本文重发和@Memphis,@邹雨恒一起实现的用来做强化学习实验的框架目前还在继续完善,实现一些算法或者技巧相比之前我们Learningtorun比赛乱得可怕的代码,目前的架构、兼容性和实现程度还比较可以接受默认参数在CartPole,Pendulum,BipedalWalker等环境中都有比较不错的表现在我的mac上训练CartPole需要这么些行代码「一键完成CartPole」[crayon-5bc7fbe994af7672774101/]进一步了解移步https:...

    12018年2月1日3,854强化学习