主要符号对照表¶
符号 |
说明 |
---|---|
RL |
强化学习 (Reinforcement Learning) |
MFRL |
免模型强化学习 (Model-free Reinforcement Learning) |
MBRL |
基于模型的强化学习 (Model-based Reinforcement Learning) |
MARL |
多智能体强化学习 (Multi-agent Reinforcement Learning) |
MetaRL |
元强化学习 (Meta Reinforcement Learning) |
IL |
模仿学习 (Imitation Learning) |
On-policy |
同策略 |
Off-policy |
异策略 |
MDP |
马尔科夫决策过程 (Markov Decision Process) |
POMDP |
部分可观测马尔科夫决策过程 (Partially Observable Markov Decision Process) |
Agent |
智能体 |
,Policy |
策略 |
Actor |
动作(网络),又称作策略(网络) |
Critic |
评价(网络) |
,State |
状态 |
,Observation |
观测值,为状态的一部分, |
,Action |
动作 |
,Reward |
奖励 |
,Done |
结束符,0表示未结束,1表示结束 |
在一个轨迹中时刻 的状态、观测值、动作、奖励和结束符 |
|
在当前状态 采取动作 之后,转移到状态 的概率; |
|
在当前状态 采取动作 之后所能获得的期望奖励; |
|
折扣因子,作为对未来回报不确定性的一个约束项, |
|
,Return |
累计折扣回报, |
随机性策略,表示获取状态 之后采取的动作 的概率 |
|
确定性策略,表示获取状态 之后采取的动作 |
|
状态值函数(State-Value Function),表示状态 对应的期望累计折扣回报 |
|
使用策略 所对应的状态值函数, |
|
动作值函数(Action-Value Function),表示状态 下采取动作 所对应的期望累计折扣回报 |
|
使用策略 所对应的动作值函数, |
|
优势函数, |
|
Batch |
数据组 |
Buffer |
数据缓冲区 |
Replay Buffer |
重放缓冲区 |
RNN |
循环神经网络(Recurrent Neural Network) |