强化学习Chapter1——基本概念

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习最优策略，以最大化累积奖励。强化学习的核心思想是智能体（Agent）在环境（Environment）中采取行动（Action），根据环境的反馈（Reward）调整其行为，从而逐步优化其策略（Policy）。

强化学习基本概念

State（状态）：agent 有关的环境的状态（status）。
- State space（状态空间）：所有可能的状态的集合。
Action（动作）：agent 可以采取的行为。
- Action space（动作空间）：所有可能的动作的集合。action 依赖于 state，对于不同的 state，action space 可能不同。
Policy（策略）：agent 在一个 State 下采用何种 Action 的规则。
- Deterministic policy（确定性策略）：在给定状态下，策略总是选择相同的动作，即某项动作被选择的概率为 1，其余动作概率为 0。
  $$\pi(a|s) = P(A_t = a \mid S_t = s) = \begin{cases} 1, & \text{if } a = \mu(s) \ 0, & \text{if } a \neq \mu(s) \end{cases}$$
- Stochastic policy（随机策略）：在给定状态下，策略以一定概率分布选择不同的动作。
  $$\pi(a|s) = P(A_t = a \mid S_t = s)$$
- 策略（无论确定还是随机）作为概率分布，满足以下公理：
  - 非负性：$\pi(a|s) \geq 0, \quad \forall a \in \mathcal{A}, s \in \mathcal{S}$
  - 归一性：$\sum_{a \in \mathcal{A}} \pi(a|s) = 1, \quad \forall s \in \mathcal{S}$ （对于离散动作空间）
- 确定性策略与随机策略的关系：确定性策略是随机策略的特例，即对于每个状态 $s$，存在某个动作 $a$ 使得 $\pi(a|s) = 1$；而严格意义上的随机策略则不存在这样的动作——即 $\forall a \in \mathcal{A}, s \in \mathcal{S}$，都有 $\pi(a|s) < 1$。
Reward（奖励）：agent 在采取某个动作后，环境给予的反馈信号，用于评估该动作的好坏。
- 同样存在确定性和随机性奖励的概念：
  - Deterministic reward（确定性奖励）：在给定状态和动作下，奖励总是相同的。
  - Stochastic reward（随机性奖励）：在给定状态和动作下，奖励可能不同，具有一定的概率分布。
Trajectory（轨迹）：agent 在环境中经历的一系列状态、动作和奖励的序列（a state-action-reward chain）。
Return（回报）：对于一个 trajectory，回报是从当前时间步开始，未来所有奖励的折扣累积和。通常使用折扣因子 $\gamma$ 来计算未来奖励的现值。
- Discount rate（折扣因子） $\gamma \in [0, 1]$：
  - 当 $\gamma$ 趋近于 0 时，远期奖励迅速衰减，return 主要取决于下一步的即时奖励（agent 变得"近视" / myopic）。
  - 当 $\gamma$ 趋近于 1 时，远期奖励衰减很慢，return 对远近奖励几乎同等看重（agent 变得"远视" / farsighted），更注重长期累积回报。
    $$\text{Return: } G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
Episode（回合）：伴随一个 terminal state 的 trajectory 称为一个 episode，也叫一个 trial。Episode 通常是有限步的。
- 有些任务没有终止状态，称为 continuing tasks（持续性任务）。
- 事实上，我们通常会把 episodic tasks 转化成 continuing tasks：
  - Option 1：将 absorbing state 的 reward 设置为 0，进入该状态后始终停留在其中并获得 0 奖励（相当于将 episode 无限延续下去）。
  - Option 2：将 terminal state 视作一个普通状态，并且假设在该状态下存在一个较好的策略可以继续收集 reward。

MDP（Markov Decision Process，马尔可夫决策过程）

强化学习通常使用马尔可夫决策过程（Markov Decision Process, MDP）来建模。MDP 是一个数学框架，用于描述具有随机性和决策性的环境。

MDP 要素（Sets）

状态集（State Space, $\mathcal{S}$）：所有可能状态的集合。
动作集（Action Space, $\mathcal{A}(s)$）：在状态 $s$ 下所有可能动作的集合。
奖励集（Reward Space, $\mathcal{R}(s,a)$）：在状态 $s$ 下采取动作 $a$ 后所有可能奖励的集合。
状态转移概率（State Transition Probability, $\mathcal{P}(s’|s,a)$）：在状态 $s$ 下采取动作 $a$ 后转移到状态 $s’$ 的概率。
奖励概率（Reward Probability, $\mathcal{P}(r|s,a)$）：在状态 $s$ 下采取动作 $a$ 后获得奖励 $r$ 的概率。
策略（Policy, $\pi(a|s)$）：在状态 $s$ 下采取动作 $a$ 的概率分布。
当 Policy 确定时，Markov Decision Process 退化为一个 Markov Process（此时 “Decision” 消失，因为动作选择已无不确定性）。