回到顶部

深度强化学习课程:从零开始精通强化学习 | AI教研室出品

2017年12月9日 9:00 ~ 2017年12月10日 18:00

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起


    强化学习第四期.jpg


    人工智能有望在工业、技术和数字革命层面带来前所未有的社会变革。能够进行感测、归因和操作的机器将加快众多领域内大规模问题的解决,这些领域包括科学、金融、医学和教育,进而增强人类的能力,并帮助我们实现更远、更快的发展。受到摩尔定律和海量数据的推动,人工智能成为了当今众多技术创新的核心。


    强化学习,是目前 DeepMind 的主攻方向,被 DeepMind 的科学家认为是通往通用智能(General AI)的必经之路。


    普林斯顿大学助理教授王梦迪认为强化学习是人工智能的未来。


    演示文稿1(1).jpg


    幻灯片3(1).JPG


    幻灯片2(1).JPG


    幻灯片1(1).JPG



    当强化学习与深度学习结合,深度强化学习技术,铸就了围棋上帝 AlphaGO,帮助 OpenAI 在 Dota 比赛中碾压人类顶级玩家。强化学习在金融、游戏 AI、机器人等领域有着广阔的应用前景。掌握深度强化学习技术的工程师,是腾讯、网易游戏 AI 部门、以及大型金融机构的急缺人才,在其职业发展道路中,无疑先人一步。


    IMG_20170917_111156.jpg


    AI 教研室从 8 月初至今,已经举办了四期强化学习从入门到进阶的培训课程,收到了广大学员一致好评。尤其是为期五天的国庆集训营,学员们给出了接近满分的极高评价。国庆后经过近两个月的时间,我们对课程又进行了进一步的升级和完善以及推进《深入浅出强化学习:原理入门》一书的出版事宜。虽然姗姗来迟,但却诚意满满,之前一直关注咨询下一期课程的小伙伴们久等啦!12 月 9 日、10 日,AI 教研室深度强化学习入门到进阶课程 2017 年度收关之作,诚意奉献!


    具体课程安排如下:


    第一天课程安排


    第一章 强化学习概述 (1 个学时)


    1. 强化学习要解决的问题

    2. 强化学习的发展历史

    3. 强化学习方法的分类

    4. 强化学习方法的发展趋势 


    教学时间:8:30—9:15

    提问和讨论时间:9:15—9:30



    第二章 马尔科夫决策过程 (2 个学时)


    1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程

    2. MDP 基本元素:策略、回报、值函数、状态行为值函数

    3. 贝尔曼方程、最优策略

    4. 强化学习的数学形式化

    5. Python 介绍,及简单的代码演示


    理论教学时间: 9:30—10:30

    手把手编程实践课:10:30—11:00

    内容:构建机器人找金币和迷宫的 python 环境


    第三章 基于模型的动态规划方法 (2 个学时)


    1. 动态规划概念介绍

    2. 策略评估过程介绍

    3. 策略改进方法介绍

    4. 策略迭代和值迭代

    5. 值迭代与最优控制介绍

    6. 基于 python 的动态规划方法演示


    理论教学时间:11:00—12:00

    手把手编程实践课:12:00—12:30

    内容:实现基于模型的强化学习算法


    第四章 蒙特卡罗方法 (2 个学时)


    1. 蒙特卡罗策略评估方法

    2. 蒙特卡罗策略改进方法

    3. 基于蒙特卡罗的强化学习方法

    4. 同策略和异策略强化学习

    5. 重要性采样

    6. 基于 python 的蒙特卡罗强化学习方法演示


    理论教学时间:14:00—15:00

    手把手编程实践课:15:00—15:30

    内容:利用蒙特卡罗方法实现机器人找金币和迷宫


    第五章 时间差分方法 (2 学时)


    1. DP,MC 和 TD 方法比较

    2. MC 和 TD 方法偏差与方差平衡

    3. 同策略 TD 方法:Sarsa 方法

    4. 异策略 TD 方法:Qlearning 方法

    5. N 步预测及 的前向和后向观点

    6. 基于 python 的 TD 方法实现


    理论教学时间:15:30—16:30

    手把手编程实践课:16:30—17:00


    第六章 Gym 环境构建及强化学习方法实现 (2 学时)


    1. Gym 环境的安装和测试

    2. Gym 环境创建的关键函数讲解

    3. 创建自己的 Gym 环境讲解

    4. 基于自己创建的 Gym 环境实现 MC,TD 等算法


    手把手编程教学时间:17:00—18:00


    第二天课程安排


    第七章 值函数逼近方法 (2 学时)


    1. 值函数的参数化表示

    2. 值函数的估计过程

    3. 值函数的优化方法,随机梯度下降和半梯度下降法

    4. 值函数的线性逼近

    5. 神经网络讲解

    6. DQN 方法介绍

    7. DQN 变种 Double DQN, Prioritized Replay, Dueling Network


    理论教学时间:8:30—9:30

    手把手编程实践课:9:30—10:30;

    教学内容:tensorflow 使用方法,利用 tensorflow 实现 DQN。


    第八章 策略梯度方法 (2 学时)


    1. 策略梯度方法介绍

    2. 似然率策略梯度推导及重要性采样视角推导

    3. 似然率策略梯度的直观理解

    4. 常见的策略表示

    5. 常见的减小方差的方法:引入基函数法,修改估计值函数法


    理论教学时间:10:30—11:30

    手把手编程实践课:11:30—12:30

    教学内容:利用 gym 和 tensorflow 实现小车倒立摆系统,乒乓球游戏


    第九章 TRPO 方法介绍及推导 (2 学时)


    1. 替代回报函数的构建

    2. 单调的改进策略

    3. TRPO 实用算法介绍

    4. 共轭梯度法搜索可行方向

    5. PPO 方法

    6. 基于 python 的 TRPO 方法实现


    理论教学时间:14:00—15:00

    手把手编程实践课:15:00—16:00

    教学内容:trpo 算法和 ppo 算法实现


    第十章 AC 方法 (2 学时)


    1. 随机策略与确定性策略比较

    2. 随机策略 AC 的方

    3. 确定性策略梯度方法

    4. DDPG 方法及实现

    5. A3C 方法讲解

    6. 基于 python 的 DDPG 方法实现


    理论教学时间: 16:00—17:00

    手把手编程实践课:17:00-18:00

    教学内容:AC 方法及 DDPG 和 A3C 方法实现


    讲师介绍


    郭宪,南开大学计算机与控制工程学院博士后,AI 教研室团队成员。2009 年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于 2016 年 1 月获得工学博士学位,期间在国内外知名杂志和会议发表论文数 10 篇。2016 年以来,郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。郭博士于 2017 年 3 月开始在知乎专栏强化学习知识大讲堂,其深入浅出的讲解收到广大知友一致好评。即将出版《深入浅出强化学习:原理入门》一书。


    购买须知


    1. 上课时间:2017 年 12 月 9 日—12 月 10 日

    2. 票价:普通票 3199

    3. 上课地址:北京市海淀区中关村

    4. 所有学员上课时需自带电脑

    5. 购买学生票的学员,将在现场查验身份证和学生证

    6. 报名课程一年内可以免费重学一次

    7. 报名上限为 30 人,小班制教学

    8. 票价不包含交通住宿费,主办方可以协助有住宿需求的学员拼房。

    9. 购票后如有其它原因无法参加本次课程,可凭票参加下期课程。

    10. 如有问题,请加客服微信(AI_classroom1)或者联系 QQ:339197723。报名付款后,也请您联系客服进行确认。

    11. 招生合作及其他商务合作,请发邮件至 dreamworksai@163.com


    举报活动

    活动标签

    最近参与

    • 133****4133
      收藏

      (5年前)

    • 盼盼
      收藏

      (6年前)

    • langdon
      收藏

      (7年前)

    • 夏权
      收藏

      (7年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    机器之心

    机器之心

    机器之心是国内最权威、最具影响力的人工智能媒体和信息服务平台,得到国内外专业人工智能从业者的高度认可,核心业务包括媒体、市场服务、信息产品与产业服务。

    微信扫一扫

    分享此活动到朋友圈

    免费发布