基于强化学习的波束分配与校准问题研究文献综述

 2022-09-26 05:09

文献综述(或调研报告):

对于激光通信中的光束校准技术的研究,主要是基于ATP框架。ATP系统可分为粗跟踪系统与精跟踪系统两个部分[1],通常将用于校准的小扩散角光束称为信标光,粗跟踪系统的主要功能即负责捕获信标光(acquiring),以此降低精跟踪系统的输入误差;而精跟踪系统主要负责信标光捕获后的跟踪与校准(tracking and pointing),以实现收发终端间的光束校准。整个系统的跟踪精度是由精跟踪系统决定的。

典型的精跟踪系统工作流程如下[2]:(1)光学望远镜收集的信标光经过快速反射镜后汇聚在精跟踪探测器上(CMOS或CCD);(2)精跟踪系统启动,探测器提取当前光斑的位置信息,并计算出其与跟踪点之间的偏差;(3)根据该偏差值来驱动快速反射镜的偏转,实现将信标光斑稳定在跟踪点上。由于粗跟踪残差和平台振动残差会导致精跟踪探测器上的光斑飘动,所以如何在多种干扰因素的影响下提高跟踪精度是ATP系统的关键。

文献[1]研究了双机之间采用机械式复合轴的ATP系统,信标光先由粗跟踪系统捕获进入精跟踪视场,再由精跟踪系统完成跟踪与校准。为了优化和提高精跟踪系统的精度,文献[2]使用CCD作为精跟踪探测器,驱动快速反射镜的偏转来移动CCD上的接收信标光斑位置,以实现对发射信标光的跟瞄,并实验验证了该系统下光斑质心提取算法的跟踪性能。使用CCD作为探测器,其对信标光斑进行高精度定位是实现高精度跟踪的关键,文献[3]采用嵌入式图像处理技术设计比实现了基于现场可编程门阵列器件的高速激光光斑检测系统。文献[4]基于ATP系统使用CMOS相机设计并实现了对无人机的激光跟踪与无线供能系统,为在实际外场环境中地面与空中无人机间的激光校准与通信提供了参考。以上现有研究均是基于ATP框架,使用机械式复合轴驱动反射镜的偏转。在实际复杂的通信环境中,依靠机械式调节系统的精度是否可以达到激光通信的要求,以及机械调节的响应时间和时延的影响,这些问题在现有的实际激光通信环境中都有待验证和解决。为了提高精度与响应时间,不同于机械轴控制,我们想采用空间光调制器(SLM)来实现对光束校准的控制。文献[5]利用反射式SLM实现了在室内传输速率超过100Gb/s的无线光通信系统,但其中光束校准是采用人工控制的方式,所以仍需要对光束的自动校准系统进行进一步设计和优化。

由于实际移动环境的复杂性,所以准确的信道条件和完整的环境模型很难获取,若能使系统具有很强的环境感知与适应能力,则在面对复杂环境时,系统也可以保持较好的性能。无模型强化学习被广泛应用于环境信息未知的贯序决策控制问题上,它无需环境的先验信息,只依靠与环境的交互进行试错,从中积累经验以学习出最优的控制策略。马尔科夫过程被广泛应用于强化学习领域。毫米波与激光同样具有指向性和易损性,它们均需要收发端间的波束校准。文献[6]的作者将毫米波基站的波束选择视为具有环境感知的多臂赌博机问题(强化学习的一类),在5G vehicle-to-everything的通信场景下,提出了一种快速线上机器学习算法,并基于Google地图数据对算法进行了仿真与验证。此外,目前强化学习的框架在通信领域中得到了广泛的研究,主要涉及波束选择与分配、时域与频域资源的分配、能量控制以及协作网络等。文献[7]提出了基于分布式强化学习框架的Q-learning算法来解决无线网络中的协作重传,其通过调节发送概率与能量来优化网络每单位能量的吞吐量。文献[8]研究了在多中继节点的协作网络中基于Q-learning算法来解决能量效率控制问题。在没有环境特征与演化的先验信息下,文献[9]提出了一种基于强化学习Q-learning算法的机会式频谱接入方案,来提高频谱利用效率。

以上应用强化学习框架的研究都普遍将状态与动作变量视为离散型,或者将连续型变量进行离散化,这会引入一定的量化误差并破坏了空间的连续性,使得在解决连续型变量问题时,它们不能找出最优的控制策略。对于连续型变量的强化学习问题,我们可采用基于策略梯度的行为者-指导者(actor-critic)算法。策略梯度算法属于基于策略的强化学习[10],它可以通过与环境的交互直接学习出一般的随机性策略,[10]中的作者提出了一种参数化的随机性策略,并计算证明了其策略梯度,以梯度更新来优化策略,这为之后基于策略梯度算法的发展打下了基础。文献[11]为使用混合能源的异构网络提出了一种基于策略梯度的actor-critic算法来进行用户调度与能源分配,以此提高系统的能量利用效率。不同于Q-learning算法,[11]中的actor-critic算法保证了状态和动作矢量中部分元素的连续型。在actor-critic算法中,行为者用于产生随机性动作,而指导者用于估算值函数并评判策略以此来指导行为者,即由指导者评估的策略梯度会被用于更新策略。书[12]有着对以上强化学习算法详细的推导与介绍。将强化学习与深度学习结合被认为是未来人工智能发展的趋势,[13]提出了一种使用神经网络的深度Q网络(deep Q-network),[14]提出了确定性策略的策略梯度以应对具有高维连续动作空间的问题,而[15]在[14]的基础上将确定性策略梯度与神经网络进行了结合。

本课题将波束校准视为一个贯序决策控制问题,在复杂的通信环境下,系统需要调节波束指向来实现校准,以此维持激光通信链路。激光通信的波束校准符合强化学习中的代理-环境结构[12],并且通信环境的复杂性使我们无法获得准确的环境信息,所以我们认为在环境信息未知的波束校准问题中,有应用无模型强化学习的可能与价值。

参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。