人工智能讲师叶梓老师人工智能系列课程之《强化学习》

人工智能讲师叶梓老师人工智能系列课程之《强化学习》

价格:联系客服报价

授课讲师:叶梓

讲师资历

培训时长 1天
授课对象
授课方式 内训

课程目标

课程大纲

第一课强化学习综述1.强化学习要解决的问题2.强化学习的发展历史3.强化学习方法的分类4.强化学习方法的发展趋势5.环境搭建实验(Gym,TensorFlow等)6.Gym环境的基本使用方法7.TensorFlow基本使用方法第二课马尔科夫决策过程1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程2.MDP基本元素:策略、回报、值函数、状态行为值函数3.贝尔曼方程4.最优策略5.Python介绍及简单的代码演示案例:构建机器人找金币和迷宫的环境第三课基于模型的动态规划方法1.动态规划概念介绍2.策略评估过程介绍3.策略改进方法介绍4.策略迭代和值迭代5.值迭代与最优控制介绍6.基于python的动态规划方法演示案例:实现基于模型的强化学习算法第四课蒙特卡罗方法1.蒙特卡罗策略评估方法2.蒙特卡罗策略改进方法3.基于蒙特卡罗的强化学习方法4.同策略和异策略强化学习5.重要性采样6.基于python的蒙特卡罗强化学习方法演示案例:利用蒙特卡罗方法实现机器人找金币和迷宫第五课时序差分方法1.DP,MC和TD方法比较2.MC和TD方法偏差与方差平衡3.同策略TD方法:Sarsa方法4.异策略TD方法:Q-learning方法5.N步预测及的前向和后向观点案例:Q-learning和Sarsa的实现第六课基于值函数逼近方法1.值函数的参数化表示2.值函数的估计过程3.神经网络基础讲解4.DQN方法介绍5.DQN变种:Double DQN,Prioritized Replay,Dueling Network案例:用DQN玩游戏——flappy bird第七课策略梯度方法1.策略梯度方法介绍2.似然率策略梯度推导及重要性采样视角推导3.似然率策略梯度的直观理解4.常见的策略表示5.常见的减小方差的方法:引入基函数法,修改估计值函数法案例:利用gym和tensorflow实现小车倒立摆系统,乒乓球游戏第八课TRPO方法介绍及推导1.替代回报函数的构建2.单调的改进策略3.TRPO实用算法介绍4.共轭梯度法搜索可行方向5.PPO方法6.基于python的TRPO方法实现案例:trpo算法和ppo算法实现第九课AC方法1.随机策略与确定性策略比较2.随机策略AC的方法3.确定性策略梯度方法4.DDPG方法及实现5.A3C方法讲解案例:基于python的DDPG方法实现第十课逆向强化学习1.基于最大边际的方法2.学徒学习、MMP3.结构化分类、神经逆向强化学习4.基于概率模型的方法5.最大熵、相对熵6.深度逆向强化学习案例:略