天授
v0.3.0
教程
Deep Q Network
基本概念
速查手册
文档
基于PyTorch的深度强化学习平台设计与实现
中文摘要
主要符号对照表
引言
平台设计与实现
平台支持的深度强化学习算法
平台对比评测
平台使用实例
总结
参考文献列表
贡献
参与贡献
天授
Docs
»
基于PyTorch的深度强化学习平台设计与实现
Edit on GitHub
基于PyTorch的深度强化学习平台设计与实现
¶
这是
PDF
版本的链接。
中文摘要
主要符号对照表
引言
深度强化学习研究背景
深度强化学习平台框架现状
现有深度强化学习平台简介
现有深度强化学习平台不足
主要贡献与论文结构
主要贡献
论文结构
平台设计与实现
深度强化学习问题描述
问题定义
智能体的组成
现有深度强化学习算法分类
深度强化学习问题的抽象凝练与平台整体设计
平台实现
数据组(Batch)
数据缓冲区(Buffer)
环境(Env)
策略(Policy)
模型(Model)
采集器(Collector)
训练器(Trainer)
算法伪代码与对应解释
平台外围支持
命名由来
文档教程
单元测试
发布渠道
小结
平台支持的深度强化学习算法
基于策略梯度的深度强化学习算法
策略梯度(PG)
优势动作评价(A2C)
近端策略优化(PPO)
广义优势函数估计器(GAE)
基于Q价值函数的深度强化学习算法
深度Q网络(DQN)
双网络深度Q学习(DDQN)
优先级经验重放(PER)
综合Q价值函数与策略梯度的深度强化学习算法
深度确定性策略梯度(DDPG)
双延迟深度确定性策略梯度(TD3)
软动作评价(SAC)
部分可观测马尔科夫决策过程的训练
模仿学习
小结
平台对比评测
实验设定说明
功能对比
算法支持
并行环境采样
模块化
代码复杂度与定制化训练环境
文档教程
单元测试与覆盖率
基准性能测试
离散动作空间免模型强化学习算法测试
连续动作空间免模型强化学习算法测试
小结
实验原始数据
附表 1
附表 2
平台使用实例
实例一:在CartPole-v0环境中运行DQN算法
实例二:循环神经网络的训练
实例三:多模态任务训练
总结
参考文献列表
Read the Docs
v: v0.3.0
Versions
master
latest
stable
v0.3.0
v0.2.3
Downloads
On Read the Docs
Project Home
Builds
Free document hosting provided by
Read the Docs
.