强化学习1——基本概念
强化学习Chapter1——基本概念
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习最优策略,以最大化累积奖励。强化学习的核心思想是智能体(Agent)在环境(Environment)中采取行动(Action),根据环境的反馈(Reward)调整其行为,从而逐步优化其策略(Policy)。
强化学习基本概念
- State(状态):agent 有关的环境的状态(status)。
- State space(状态空间):所有可能的状态的集合。
- Action(动作):agent 可以采取的行为。
- Action space(动作空间):所有可能的动作的集合。action 依赖于 state,对于不同的 state,action space 可能不同。
- Policy(策略):agent 在一个 State 下采用何种 Action 的规则。
- Deterministic policy(确定性策略):在给定状态下,策略总是选择相同的动作,即某项动作被选择的概率为 1,其余动作概率为 0。
$$\pi(a|s) = P(A_t = a \mid S_t = s) = \begin{cases} 1, & \text{if } a = \mu(s) \ 0, & \text{if } a \neq \mu(s) \end{cases}$$ - Stochastic policy(随机策略):在给定状态下,策略以一定概率分布选择不同的动作。
$$\pi(a|s) = P(A_t = a \mid S_t = s)$$ - 策略(无论确定还是随机)作为概率分布,满足以下公理:
- 非负性:$\pi(a|s) \geq 0, \quad \forall a \in \mathcal{A}, s \in \mathcal{S}$
- 归一性:$\sum_{a \in \mathcal{A}} \pi(a|s) = 1, \quad \forall s \in \mathcal{S}$ (对于离散动作空间)
- 确定性策略与随机策略的关系:确定性策略是随机策略的特例,即对于每个状态 $s$,存在某个动作 $a$ 使得 $\pi(a|s) = 1$;而严格意义上的随机策略则不存在这样的动作——即 $\forall a \in \mathcal{A}, s \in \mathcal{S}$,都有 $\pi(a|s) < 1$。
- Deterministic policy(确定性策略):在给定状态下,策略总是选择相同的动作,即某项动作被选择的概率为 1,其余动作概率为 0。
- Reward(奖励):agent 在采取某个动作后,环境给予的反馈信号,用于评估该动作的好坏。
- 同样存在确定性和随机性奖励的概念:
- Deterministic reward(确定性奖励):在给定状态和动作下,奖励总是相同的。
- Stochastic reward(随机性奖励):在给定状态和动作下,奖励可能不同,具有一定的概率分布。
- 同样存在确定性和随机性奖励的概念:
- Trajectory(轨迹):agent 在环境中经历的一系列状态、动作和奖励的序列(a state-action-reward chain)。
- Return(回报):对于一个 trajectory,回报是从当前时间步开始,未来所有奖励的折扣累积和。通常使用折扣因子 $\gamma$ 来计算未来奖励的现值。
- Discount rate(折扣因子) $\gamma \in [0, 1]$:
- 当 $\gamma$ 趋近于 0 时,远期奖励迅速衰减,return 主要取决于下一步的即时奖励(agent 变得"近视" / myopic)。
- 当 $\gamma$ 趋近于 1 时,远期奖励衰减很慢,return 对远近奖励几乎同等看重(agent 变得"远视" / farsighted),更注重长期累积回报。
$$\text{Return: } G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
- Discount rate(折扣因子) $\gamma \in [0, 1]$:
- Episode(回合):伴随一个 terminal state 的 trajectory 称为一个 episode,也叫一个 trial。Episode 通常是有限步的。
- 有些任务没有终止状态,称为 continuing tasks(持续性任务)。
- 事实上,我们通常会把 episodic tasks 转化成 continuing tasks:
- Option 1:将 absorbing state 的 reward 设置为 0,进入该状态后始终停留在其中并获得 0 奖励(相当于将 episode 无限延续下去)。
- Option 2:将 terminal state 视作一个普通状态,并且假设在该状态下存在一个较好的策略可以继续收集 reward。
MDP(Markov Decision Process,马尔可夫决策过程)
强化学习通常使用马尔可夫决策过程(Markov Decision Process, MDP)来建模。MDP 是一个数学框架,用于描述具有随机性和决策性的环境。
MDP 要素(Sets)
- 状态集(State Space, $\mathcal{S}$):所有可能状态的集合。
- 动作集(Action Space, $\mathcal{A}(s)$):在状态 $s$ 下所有可能动作的集合。
- 奖励集(Reward Space, $\mathcal{R}(s,a)$):在状态 $s$ 下采取动作 $a$ 后所有可能奖励的集合。
- 状态转移概率(State Transition Probability, $\mathcal{P}(s’|s,a)$):在状态 $s$ 下采取动作 $a$ 后转移到状态 $s’$ 的概率。
- 奖励概率(Reward Probability, $\mathcal{P}(r|s,a)$):在状态 $s$ 下采取动作 $a$ 后获得奖励 $r$ 的概率。
- 策略(Policy, $\pi(a|s)$):在状态 $s$ 下采取动作 $a$ 的概率分布。
- 当 Policy 确定时,Markov Decision Process 退化为一个 Markov Process(此时 “Decision” 消失,因为动作选择已无不确定性)。
Markov Property(马尔可夫性质)
马尔可夫性质是指系统的未来状态仅依赖于当前状态和当前动作,而与过去的状态和动作无关:
$$P(S_{t+1} \mid S_t, A_t) = P(S_{t+1} \mid S_0, A_0, S_1, A_1, \ldots, S_t, A_t)$$
上述公式展示了马尔可夫状态转移性质;将其中的 $S_{t+1}$ 换为 $R_{t+1}$,则得到马尔可夫奖励性质,同样成立。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 nagisa的小屋!
评论
ValineDisqus
