《Python强化学习实战应用OpenAIGym和TensorFlow精通强化学习和深度强化学》[49M]百度网盘|亲测有效|pdf下载

书籍详情

Python强化学习实战应用OpenAIGym和TensorFlow精通强化学习和深度强化学
出版社:弗洛拉图书专营店
热度:6763
上架时间:2024-06-30 09:07:09
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

商品参数

Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习
	定价	69.00
	出版社	机械工业出版社
	版次
	出版时间	2018年12月
	开本	16开
	作者	Sudharsan Ravichandiran 著
	装帧	平装-胶订
	页数
	字数
	ISBN编码	9787111612889
	重量	378

内容介绍

强化学习是一种重要的机器学习方法，在智能体及分析预测等领域有许多应用。本书共13章，主要包括强化学习的各种要素，即智能体、环境、策略和模型以及相应平台和库；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置；马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系，动态规划的基本概念；蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法；时间差分学习、预测、离线/在线策略控制等；多臂赌博机问题以及相关的各种探索策略方法；深度学习的各种基本概念和RNN、LSTM、CNN等神经网络；深度强化学习算法DQN，以及双DQN和对抗网络体系结构等改进架构；DRQN以及DARQN；A3C网络的基本工作原理及架构；策略梯度和优化问题；*后介绍了强化学习的*新进展以及未来发展。

译者序原书前言第壹章强化学习简介 //1 1.1 什么是强化学习 //1 1.2 强化学习算法 //2 1.3 强化学习与其他机器学习范式的不同 //3 1.4 强化学习的要素 //3 1.4.1 智能体 //3 1.4.2 策略函数 //3 1.4.3 值函数 //4 1.4.4 模型 //4 1.5 智能体环境接口 //4 1.6 强化学习的环境类型 //5 1.6.1 确定性环境 //5

译者序

原书前言

第壹章强化学习简介 //1

1.1 什么是强化学习 //1

1.2 强化学习算法 //2

1.3 强化学习与其他机器学习范式的不同 //3

1.4 强化学习的要素 //3

1.4.1 智能体 //3

1.4.2 策略函数 //3

1.4.3 值函数 //4

1.4.4 模型 //4

1.5 智能体环境接口 //4

1.6 强化学习的环境类型 //5

1.6.1 确定性环境 //5

1.6.2 随机性环境 //5

1.6.3 wan全可观测环境 //5

1.6.4 部分可观测环境 //5

1.6.5 离散环境 //5

1.6.6 连续环境 //5

1.6.7 情景和非情景环境 //5

1.6.8 单智能体和多智能体环境 //6

1.7 强化学习平台 //6

1.7.1 OpenAI Gym和Universe //6

1.7.2 DeepMind Lab //6

1.7.3 RL-Glue //6

1.7.4 Project Malmo //6

1.7.5 VizDoom //6

1.8 强化学习的应用 //7

1.8.1 教育 //7

1.8.2 医疗和健康 //7

1.8.3 制造业 //7

1.8.4 库存管理 //7

1.8.5 金融 //7

1.8.6 自然语言处理和计算机视觉 //7

1.9 小结 //8

1.10 问题 //8

1.11 扩展阅读 //8

第2章从OpenAI和TensorFlow入门 //9

2.1 计算机设置 //9

2.1.1 安装Anaconda //9

2.1.2 安装Docker //10

2.1.3 安装OpenAI Gym和Universe //11

2.2 OpenAI Gym //13

2.2.1 基本模拟 //13

2.2.2 训练机器人行走 //14

2.3 OpenAI Universe //16

2.3.1 构建一个视频游戏机器人 //16

2.4 TensorFlow //20

2.4.1 变量、常量和占位符 //20

2.4.2 计算图 //21

2.4.3 会话 //21

2.4.4 TensorBoard //22

2.5 小结 //25

2.6 问题 //25

2.7 扩展阅读 //25

第3章马尔可夫决策过程和动态规划 //26

3.1 马尔可夫链和马尔可夫过程 //26

3.2 MDP //27

3.2.1 奖励和回报 //28

3.2.2 情景和连续任务 //28

3.2.3 折扣因数 //28

3.2.4 策略函数 //29

3.2.5 状态值函数 //29

3.2.6 状态—行为值函数（Q函数）//30

3.3 Bellman方程和*优性 //30

3.3.1 推导值函数和Q函数的Bellman方程 //31

3.4 求解Bellman方程 //32

3.4.1 动态规划 //32

3.5 求解冰冻湖问题 //38

3.5.1 值迭代 //39

3.5.2 策略迭代 //43

3.6 小结 //45

3.7 问题 //45

3.8 扩展阅读 //46

第4章基于蒙特卡罗方法的博弈游戏 //47

4.1 蒙特卡罗方法 //47

4.1.1 利用蒙特卡罗方法估计π值 //47

4.2 蒙特卡罗预测 //50

4.2.1 首*访问蒙特卡罗 //51

4.2.2 每次访问蒙特卡罗 //52

4.2.3 利用蒙特卡罗方法玩二十一点游戏 //52

4.3 蒙特卡罗控制 //58

4.3.1 蒙特卡罗探索开始 //58

4.3.2 在线策略的蒙特卡罗控制 //59

4.3.3 离线策略的蒙特卡罗控制 //61

4.4 小结 //62

4.5 问题 //62

4.6 扩展阅读 //63

第5章时间差分学习 //64

5.1 时间差分学习 //64

5.2 时间差分预测 //64

5.3 时间差分控制 //66

5.3.1 Q学习 //66

5.3.2 SARSA //72

5.4 Q学习和SARSA之间的区别 //77

5.5 小结 //77

5.6 问题 //78

5.7 扩展阅读 //78

第6章 MAB问题 //79

6.1 MAB问题 //79

6.1.1 ε贪婪策略 //80

6.1.2 Softmax探索算法 //82

6.1.3 UCB算法 //83

6.1.4 Thompson采样算法 //85

6.2 MAB的应用 //86

6.3 利用MAB识别正确的广告标识 //87

6.4 上下文赌博机 //89

6.5 小结 //89

6.6 问题 //89

6.7 扩展阅读 //89

第7章深度学习基础 //90

7.1 人工神经元 //90

7.2 ANN //91

7.2.1 输入层 //92

7.2.2 隐层 //92

7.2.3 输出层 //92

7.2.4 激活函数 //92

7.3 深入分析ANN //93

7.3.1 梯度下降 //95

7.4 TensorFlow中的神经网络 //99

7.5 RNN //101

7.5.1 基于时间的反向传播 //103

7.6 LSTM RNN //104

7.6.1 利用LSTM RNN生成歌词 //105

7.7 CNN //108

7.7.1 卷积层 //109

7.7.2 池化层 //111

7.7.3 全连接层 //112

7.7.4 CNN架构 //112

7.8 利用CNN对时尚产品进行分类 //113

7.9 小结 //117

7.10 问题 //117

7.11 扩展阅读 //118

第8章基于DQN的Atari游戏 //119

8.1 什么是DQN //119

8.2 DQN的架构 //120

8.2.1 卷积网络 //120

8.2.2 经验回放 //121

8.2.3 目标网络 //121

8.2.4 奖励裁剪 //122

8.2.5 算法理解 //122

8.3 构建一个智能体来玩Atari游戏 //122

8.4 双DQN //129

8.5 优先经验回放 //130

8.6 对抗网络体系结构 //130

8.7 小结 //131

8.8 问题 //132

8.9 扩展阅读 //132

第9章基于DRQN玩Doom游戏 //133

9.1 DRQN //133

9.1.1 DRQN架构 //134

9.2 训练一个玩Doom游戏的智能体 //135

9.2.1 基本的Doom游戏 //135

9.2.2 基于DRQN的Doom游戏 //136

9.3 DARQN //145

9.3.1 DARQN架构 //145

9.4 小结 //145

9.5 问题 //146

9.6 扩展阅读 //146

第壹0章 A3C网络 //147

10.1 A3C //147

10.1.1 异步优势行为者 //147

10.1.2 A3C架构 //148

10.1.3 A3C的工作原理 //149

10.2 基于A3C爬山 //149

10.2.1 TensorBoard中的可视化 //155

10.3 小结 //158

10.4 问题 //158

10.5 扩展阅读 //158

第壹1章策略梯度和优化 //159

11.1 策略梯度 //159

11.1.1 基于策略梯度的月球着陆器 //160

11.2 DDPG //164

11.2.1 倒立摆 //165

11.3 TRPO //170

11.4 PPO //173

11.5 小结 //175

11.6 问题 //175

11.7 扩展阅读 //175

第壹2章 Capstone项目—基于DQN的赛车游戏 //176

12.1 环境封装函数 //176

12.2 对抗网络 //179

12.3 回放记忆 //180

12.4 训练网络 //181

12.5 赛车游戏 //186

12.6 小结 //189

12.7 问题 //189

12.8 扩展阅读 //189

第壹3章 *新进展和未来发展 //190

13.1 I2A //190

13.2 基于人类偏好的学习 //193

13.3 DQfd //194

13.4 HER //195

13.5 HRL //196

13.5.１ MAXQ值函数分解 //196

13.6 逆向强化学习 //198

13.7 小结 //199

13.8 问题 //199

13.9 扩展阅读 //199

附录知识点 //200

显示全部信息

相关推荐

机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版

设计数据密集型应用

计算机科学导论计算机与互联网书籍