强化学习3——贝尔曼最优
强化学习Chapter3——贝尔曼最优 本节的核心概念:optimal state value、optimal policy;基本工具:Bellman Optimality Equation(BOE贝尔曼最优方程) 当我们计算State Value时,我们实际上是在评估一个策略的好坏。我们希望找到一个最优策略,使得在每个状态下,采取该策略所获得的期望回报最大化。 如果有$$v_\pi(s) \geq v_{\pi’}(s) \quad\text{ for all } s \in \mathcal{S}$$那么我们就说策略$\pi$优于策略$\pi’$。 Bellman Optimality Equation(BOE贝尔曼最优方程) 贝尔曼最优方程是强化学习中用于描述最优策略的核心方程。它基于动态规划的思想,定义了在每个状态下,采取最优策略所能获得的最大期望回报。 推导 我们先回顾Bellman Eqaution: $$v_\pi(s) = \sum_{a} \pi(a|s) (\sum_{r} p(r | s, a) r + \gamma \sum_{s’} p(s’...
强化学习1——基本概念
强化学习Chapter1——基本概念 强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习最优策略,以最大化累积奖励。强化学习的核心思想是智能体(Agent)在环境(Environment)中采取行动(Action),根据环境的反馈(Reward)调整其行为,从而逐步优化其策略(Policy)。 强化学习基本概念 State(状态):agent 有关的环境的状态(status)。 State space(状态空间):所有可能的状态的集合。 Action(动作):agent 可以采取的行为。 Action space(动作空间):所有可能的动作的集合。action 依赖于 state,对于不同的 state,action space 可能不同。 Policy(策略):agent 在一个 State 下采用何种 Action 的规则。 Deterministic policy(确定性策略):在给定状态下,策略总是选择相同的动作,即某项动作被选择的概率为 1,其余动作概率为 0。 $$\pi(a|s) =...
强化学习2——贝尔曼公式
强化学习Chapter2——贝尔曼公式 本章核心为 State Value 与核心工具 Bellman Equation。 如何计算 Return Option1:直接法 $$v_1 = r_1 + \gamma(r_2 + \gamma r_3 + \gamma^2 r_4 + \cdots)$$ Option2:迭代法 $$v_1 = r_1 + \gamma v_2$$其中$$v_2 = r_2 + \gamma v_3$$以此类推。 通过 Option2 的迭代法,我们可以将 Return 的计算转化为一个递归问题,这就是贝尔曼方程的核心思想。 $$\underbrace{\begin{bmatrix} v_1 \\ v_2 \\ v_3 \\ v_4 \end{bmatrix}}_{\mathbf{v}} = \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \end{bmatrix} + \begin{bmatrix} \gamma v_2 \\ \gamma v_3 \\ \gamma v_4 \\ \gamma v_1...
飞控前置知识——姿态描述与部分分析力学
无人机中的姿态描述与部分分析力学 前言 开新坑了,这期的学习记录主要是关于无人机飞控前置知识的学习笔记,主要包括姿态描述与动力学建模两大部分内容。 从牛顿力学到分析力学,确实是一项伟大的跨越。 四元数的超维映射,比较难以理解 这期数学推导有点多,但笔者尝试在学习完这部分的内容后立马尝试推导四旋翼无人机的动力学建模,发现仍然难以推导,只能后续填坑了。 姿态描述:定位基础 定位姿态存在四类描述方式:变换矩阵、旋转矩阵、欧拉角、四元数 旋转矩阵与欧拉角 旋转矩阵是以矩阵形式描述物体在三维空间中的旋转变换,欧拉角则是通过三个角度来描述旋转,即众人熟悉的Roll(滚转)、Pitch(俯仰)、Yaw(偏航)。旋转矩阵可以通过欧拉角很简单的转换,反之同理。 旋转矩阵与欧拉角的转换 首先如下表定义物理量的含义。 符号 物理含义 (欧拉角速度) $[{\phi}, {\theta},...
LoRA:用小抄、上大分
LoRA(Low-rank adaptation)微调技术:用小抄、上大分 LoRA为何出现? 随着GPT-3等千亿参数大模型的出现,越来越多的产业需要使用这些大模型进行生产工作。当把一个预训练完的大语言模型接入到特定垂直领域进行使用时,往往希望其拥有更多该领域的相关知识,以提升其在该领域的表现。因此,我们需要对预训练的大模型进行微调(Fine-tuning)。 微调方式 在LoRA出现之前,微调大模型的方式主要有两种: 全参数微调 直接对预训练模型的所有参数进行微调。对于参数爆炸的大模型来说,这种方式需要大量的计算资源(显存)和存储空间,且容易过拟合。 参数高效微调PEFT(Parameter-Efficient...
NCRE计算机三级——网络技术备考全笔记
NCRE计算机三级——网络技术备考全笔记 网络系统结构与设计的基本结构 宽带城域网的结构 “三个平台,一个出口:管理平台,业务平台,网络平台和城市宽带出口” 用户接入层:解决用户 “最后一公里” 的作用,主要用来连接客户的 和用户接入有关的东西 (用户接入和本地流量控制)...
ROS中常见传感器消息和Linux的设备管理
ROS中常见传感器消息和Linux的设备管理 ROS中常见传感器消息——SensorMsg SensorMsg是ROS中用于表示各种传感器数据的消息类型集合。它包含了多种传感器数据格式,如图像、点云、激光扫描等,方便开发者在ROS环境中处理和传输传感器数据。 激光雷达传感器信息 你是否也有这样的疑惑,pointcloud2的点云消息格式(sensormsgs)和Velodyne 点云结构(velodyne_ros::Point)Livox...
Transformer及其变体
Transformer及其变体学习笔记 为什么需要Transformer变形金刚 RNN的好与坏 RNN的计算方式[矩阵方式] 矩阵行列不变的计算,将t-1的部分处理后并入t时刻的传入矩阵、 计算公式 RNN缺点 无法捕捉长期依赖 无法并行,必须一步一步顺序计算 Transformer模型(基础数学理解) 模型的编码、计算方式核心 将词向量用Wq、Wk、Wv相乘的到三个变换词向量 关系性判断:变换词向量之间的相似度 Attention注意力机制,Multi-Head...
几个工作流介绍
工作流介绍(算法组第六课) Konsole的使用 Ubuntu默认使用GNOME桌面环境,同时支持Wayland和X11两种显示服务器协议。KDE桌面环境则是另一种流行的Linux桌面环境,主要使用X11协议,但也支持Wayland。 Konsole是KDE桌面环境下的终端模拟器,可以类比超级终端(Terminator),但是他拥有更多的快捷键和功能 Konsole的快捷键和功能可以在设置中进行查看和修改,你能想到的快速分屏,复制粘贴等快捷键这里基本都有 下载后,需要将Konsole设置为默认终端模拟器,输入如下指令后按提示进行: sudo update-alternatives --config x-terminal-emulator 开发容器与DevContainer的使用 DevContainer是Visual Studio Code(VS Code)中的一个功能,允许开发者在隔离的容器环境中进行开发。 无需在终端进行docker有关的容器创建和开启等操作,直接在VS Code中打开项目文件夹,VS...
关于我
你会发现一个有趣的我 🙋 Hello 🤺 About Me 嗨,你好,我是小田同学,目前就读于南京理工大学自动化学院,大三。热爱编程、创新、学习、读书、运动、旅行、音乐。 热爱机器人和计算机,希望能成为一名优秀的开发者。 日常里,我也是个泡工位敲代码的“技术一般”宅;但,我的其余生活同样丰富: 坚持数年如一日的夜跑; 闲暇时间看番、剧本杀、探店、摄影; 还有时常在寝室吃灰的电吉他:( 和同学们去KTV是我的热爱,也会在下课后的饭点儿和好哥们一起吃饭。 当然啦,有着和大多数同学一样赚钱与经济独立的愿望;与此同时,也希望能够靠着自己过去、当下、未来所学,能对世界有所影响 :) 📃 Recent Blog ...
