nagisa的小屋

发表于2026-07-12|技术ROS2

ROS2 Middleware通信本文用于记录笔者在使用ROS2开发时，在通信问题上的踩坑与总结。 ROS2 Middleware通信件 ROS2通信的核心是Middleware，传递消息。ROS2的体系结构是采取分层设计的，主要由自下而上的Operationg System层、Communication Layer层、Middleware层、ROS2 Client Wrapper层与User Application层组成。 Middleware层用于提供ROS2到Communication Layer的翻译接口，进而调用Communication Layer的功能。笔者使用过的Communication Layer的通信件有： Fast DDS，同时也是ROS2官方推荐的通信件，基于UDP组播 Cyclone DDS，更加轻量化，也更加灵活的通信件，基于UDP组播 Zenoh，由Rust语言开发的通信件，支持多种传输协议，基于TCP 我们使用的通信件经历了从官方默认的Fast DDS，到Cyclone...

强化学习3——贝尔曼最优

发表于2026-07-04|RL技术

强化学习Chapter3——贝尔曼最优本节的核心概念：optimal state value、optimal policy；基本工具：Bellman Optimality Equation（BOE贝尔曼最优方程）当我们计算State Value时，我们实际上是在评估一个策略的好坏。我们希望找到一个最优策略，使得在每个状态下，采取该策略所获得的期望回报最大化。如果有$$v_\pi(s) \geq v_{\pi’}(s) \quad\text{ for all } s \in \mathcal{S}$$那么我们就说策略$\pi$优于策略$\pi’$。 Bellman Optimality Equation（BOE贝尔曼最优方程）贝尔曼最优方程是强化学习中用于描述最优策略的核心方程。它基于动态规划的思想，定义了在每个状态下，采取最优策略所能获得的最大期望回报。推导我们先回顾Bellman Eqaution： $$v_\pi(s) = \sum_{a} \pi(a|s) (\sum_{r} p(r | s, a) r + \gamma \sum_{s’} p(s’...

强化学习1——基本概念

发表于2026-06-28|RL技术

强化学习Chapter1——基本概念强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习最优策略，以最大化累积奖励。强化学习的核心思想是智能体（Agent）在环境（Environment）中采取行动（Action），根据环境的反馈（Reward）调整其行为，从而逐步优化其策略（Policy）。强化学习基本概念 State（状态）：agent 有关的环境的状态（status）。 State space（状态空间）：所有可能的状态的集合。 Action（动作）：agent 可以采取的行为。 Action space（动作空间）：所有可能的动作的集合。action 依赖于 state，对于不同的 state，action space 可能不同。 Policy（策略）：agent 在一个 State 下采用何种 Action 的规则。 Deterministic policy（确定性策略）：在给定状态下，策略总是选择相同的动作，即某项动作被选择的概率为 1，其余动作概率为 0。 $$\pi(a|s) =...

强化学习2——贝尔曼公式

发表于2026-06-28|RL技术

强化学习Chapter2——贝尔曼公式本章核心为 State Value 与核心工具 Bellman Equation。如何计算 Return Option1：直接法 $$v_1 = r_1 + \gamma(r_2 + \gamma r_3 + \gamma^2 r_4 + \cdots)$$ Option2：迭代法 $$v_1 = r_1 + \gamma v_2$$其中$$v_2 = r_2 + \gamma v_3$$以此类推。通过 Option2 的迭代法，我们可以将 Return 的计算转化为一个递归问题，这就是贝尔曼方程的核心思想。 $$\underbrace{\begin{bmatrix} v_1 \\ v_2 \\ v_3 \\ v_4 \end{bmatrix}}_{\mathbf{v}} = \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \end{bmatrix} + \begin{bmatrix} \gamma v_2 \\ \gamma v_3 \\ \gamma v_4 \\ \gamma v_1...

飞控前置知识——姿态描述与部分分析力学

发表于2026-06-27|无人机技术

无人机中的姿态描述与部分分析力学前言开新坑了，这期的学习记录主要是关于无人机飞控前置知识的学习笔记，主要包括姿态描述与动力学建模两大部分内容。从牛顿力学到分析力学，确实是一项伟大的跨越。四元数的超维映射，比较难以理解这期数学推导有点多，但笔者尝试在学习完这部分的内容后立马尝试推导四旋翼无人机的动力学建模，发现仍然难以推导，只能后续填坑了。姿态描述：定位基础定位姿态存在四类描述方式：变换矩阵、旋转矩阵、欧拉角、四元数旋转矩阵与欧拉角旋转矩阵是以矩阵形式描述物体在三维空间中的旋转变换，欧拉角则是通过三个角度来描述旋转，即众人熟悉的Roll（滚转）、Pitch（俯仰）、Yaw（偏航）。旋转矩阵可以通过欧拉角很简单的转换，反之同理。旋转矩阵与欧拉角的转换首先如下表定义物理量的含义。符号物理含义 (欧拉角速度) $[{\phi}, {\theta},...

LoRA：用小抄、上大分

发表于2026-03-17|LLM技术AILoRA

LoRA（Low-rank adaptation）微调技术：用小抄、上大分 LoRA为何出现？随着GPT-3等千亿参数大模型的出现，越来越多的产业需要使用这些大模型进行生产工作。当把一个预训练完的大语言模型接入到特定垂直领域进行使用时，往往希望其拥有更多该领域的相关知识，以提升其在该领域的表现。因此，我们需要对预训练的大模型进行微调（Fine-tuning）。微调方式在LoRA出现之前，微调大模型的方式主要有两种：全参数微调直接对预训练模型的所有参数进行微调。对于参数爆炸的大模型来说，这种方式需要大量的计算资源（显存）和存储空间，且容易过拟合。参数高效微调PEFT（Parameter-Efficient...

NCRE计算机三级——网络技术备考全笔记

发表于2026-01-16|计算机考试备考

NCRE计算机三级——网络技术备考全笔记网络系统结构与设计的基本结构宽带城域网的结构 “三个平台，一个出口：管理平台，业务平台，网络平台和城市宽带出口” 用户接入层：解决用户 “最后一公里” 的作用，主要用来连接客户的和用户接入有关的东西（用户接入和本地流量控制）...

ROS中常见传感器消息和Linux的设备管理

发表于2025-10-12|技术SLAM定位

ROS中常见传感器消息和Linux的设备管理 ROS中常见传感器消息——SensorMsg SensorMsg是ROS中用于表示各种传感器数据的消息类型集合。它包含了多种传感器数据格式，如图像、点云、激光扫描等，方便开发者在ROS环境中处理和传输传感器数据。激光雷达传感器信息你是否也有这样的疑惑，pointcloud2的点云消息格式（sensormsgs）和Velodyne 点云结构（velodyne_ros::Point）Livox...

Transformer及其变体

发表于2025-09-21|技术深度学习论文学习

Transformer及其变体学习笔记为什么需要Transformer变形金刚 RNN的好与坏 RNN的计算方式[矩阵方式] 矩阵行列不变的计算，将t-1的部分处理后并入t时刻的传入矩阵、计算公式 RNN缺点无法捕捉长期依赖无法并行，必须一步一步顺序计算 Transformer模型（基础数学理解）模型的编码、计算方式核心将词向量用Wq、Wk、Wv相乘的到三个变换词向量关系性判断：变换词向量之间的相似度 Attention注意力机制，Multi-Head...

几个工作流介绍

发表于2025-09-07|技术工作流

工作流介绍（算法组第六课） Konsole的使用 Ubuntu默认使用GNOME桌面环境，同时支持Wayland和X11两种显示服务器协议。KDE桌面环境则是另一种流行的Linux桌面环境，主要使用X11协议，但也支持Wayland。 Konsole是KDE桌面环境下的终端模拟器，可以类比超级终端（Terminator），但是他拥有更多的快捷键和功能 Konsole的快捷键和功能可以在设置中进行查看和修改，你能想到的快速分屏，复制粘贴等快捷键这里基本都有下载后，需要将Konsole设置为默认终端模拟器，输入如下指令后按提示进行： sudo update-alternatives --config x-terminal-emulator 开发容器与DevContainer的使用 DevContainer是Visual Studio Code（VS Code）中的一个功能，允许开发者在隔离的容器环境中进行开发。无需在终端进行docker有关的容器创建和开启等操作，直接在VS Code中打开项目文件夹，VS...