自动变道系统

技术2023-10-21 79

文章目录

自动变道系统一、介绍二、相关工作A. 自动驾驶的架构B. 用于自主车辆决策的强化学习C. 车辆区块链三、系统模型A. 场景B. 变道过程四、自主变道深度强化学习A. 自动变道系统参数B. 自动变道DDPG 五、车辆区块链辅助的知识共享A. 框架概述B. 集体学习操作C. 知识转移操作D. 区块链操作六、仿真结果与讨论A. 仿真设置B. 仿真结果七、结论

自动变道系统

一种以车辆区块链为辅助的知识积累与传递的自动变道系统

摘要：联网自动驾驶车辆(CAVs)不适当的车道跟随和变道行为会导致追尾和侧碰等事故。为了解决这个问题，在自动驾驶决策中使用深度强化学习(DRL)是目前广泛使用的有前景的解决方案。在这种情况下，这样一个机器学习(ML)模型的准确性和有效性对于这个人工智能(AI)的CAVs是非常必要的。本文提出了一种基于区块链的集体学习(BCL)框架用于自动变道系统。通过集体学习、车辆区块链和知识转移，解决了学习效率、数据安全、用户隐私和通信负担四个关键问题。首先将变道问题建模为一个DRL过程，并通过深度确定性政策梯度(DDPG)算法学习自动变道策略。其次，单个CAV涉及的驾驶场景数量有限，自主学习方法存在效率低下的问题。因此，我们提出了一个集体学习框架来利用CAVs的集体智慧。第三，使用车载区块链来保证用户和数据的安全和隐私。另外，区块链的引入可以激励更多的用户参与集体学习。最后，为了加快学习过程，获得更高的性能，同时进一步减少通信负担，我们不再直接共享本地ML模型，而是像人类学习一样从ML模型中提取相应的知识作为特权信息进行共享。大量的仿真结果验证了我们的方案在学习效率、驾驶安全性以及系统安全性和鲁棒性方面的有效性和效率。

索引词–联网自动驾驶汽车(CAVs)，区块链，集体学习，知识转移

一、介绍

人工智能(AI)技术对于CAVs的出现和进一步发展至关重要。这些支持AI的CAVs通过训练机器学习(ML)模型来训练多种自主驾驶行为，包括使用卷积神经网络(**CNN)**进行目标识别，使用递归神经网络(RNN)进行路线规划和意图预测，使用深度强化学习(DRL)进行决策和控制。众所周知，车道跟随和变道是自动驾驶中常见的行为。然而，联网自动驾驶车辆(CAVs)不恰当的换道行为会导致不同类型的事故，如追尾和侧碰。因此，有必要学习安全平稳的变道行为。本文主要研究了DRL在车道跟随和变道行为学习和自主决策方面。

为了实现安全的自主驾驶，人们对CAVs的车道跟随和改变行为进行了大量的研究。Wei等人提出了一种基于监督强化学习(SRL)的协作自适应巡航控制(CACC)系统框架。Chen等人[6]使用DRL来学习密集交通中的变道行为。Sallab等人使用了两种强化学习算法，即深度Q-Network算法(DQN)和深度确定性演员-评论家算法(DDAC)，用于执行自动保持车道的辅助。这些基于DRL的策略虽然取得了良好的效果，但在模型训练方面存在一定的局限性。

一般来说，从ML模型训练的角度来看，单车智能方法和集中式方法是两种先驱方法。对于前者，机载传感器的传感能力和单个CAV的计算能力受到了限制。此外，每个CAV涉及有限的驾驶环境，使其难以应对复杂的情况。例如，一个十字路口突然建成，或者下雪导致道路打滑。而集中式则是由各CAV收集数据并上传到中央服务器进行驾驶模型学习。然而，大量数据的传输不仅给通信网络带来了沉重的负担，也带来了隐私和安全问题，如车辆位置、车辆状态、驾驶习惯等。此外，如果这些数据被篡改，可能会严重影响交通安全。更严重的是，ML模型的学习依赖于中央服务器，中央服务器的失效影响了所有CAVs的表现。

鉴于机器学习的特点，现有工作仍面临以下挑战:

大多数ML算法的数据源单一，只能学习特定的功能或模型;

目前机器学习系统在学习过程中通常是相互独立的，而不是像人类一样互相分享经验;

越来越多的车载传感器产生大量的数据，这对通信和计算是前所未有的挑战;

由于数据传输和采集而产生的隐私和数据安全问题不容忽视。

在现有工作的基础上，我们充分利用CAVs的集体智慧来应对上述挑战。具体来说，受人类学习方式的启发，我们提出了一个框架，允许CAVs在车辆区块链和知识转移的辅助下分享他们的自动驾驶知识。特别是在驾驶过程中，每个CAV都使用DRL来学习自动变道行为策略。然后从学习的ML模型中提取相应的知识作为特权信息传递给其他性能较差的CAVs，帮助他们加快学习过程，提高性能。此外，车载区块链是一项很有前途的技术，可以在保证安全和隐私的同时，促进CAVs智能(知识)交流，并激励CAVs参与集体学习。我们相信，这个框架可以成为一个很好的指导方针，帮助CAVs实现更精确和高效的机器学习。本文的主要贡献有四方面:

1）集体学习框架:我们提出了一种基于区块链的集体学习(BCL)框架，用于利用CAVs的集体智慧，主要用于应对当前CAVs在机器学习方面面临的挑战。

2）基于人工智能的算法:我们将变道问题制定为一个DRL过程，以获得最优的自主驾驶策略。此外，采用深度确定性策略梯度(DDPG)算法来降低复杂环境下的学习难度。

3）知识转移策略:为了加快学习过程，获得更好的性能，我们从学习的模型中提取相应的驱动知识，并进行知识共享。在这种策略下，一方面，共享提取的知识比共享ML模型需要更少的数据传输，从而节省带宽。另一方面，高层次的知识抽取可以避免负迁移效应。

本文的其余部分组织如下。在第二部分，我们调查相关的最新文献。然后在第三节中描述了车辆变道场景并分析了变道过程。在系统模型的基础上，在第四节提出了基于DRL的自主制动算法。然后在第五节中，我们从集体学习、知识转移和区块链操作的步骤来描述所提出的BCL框架。第六节中，我们讨论了广泛的模拟结果，在第七节中得出结论。

二、相关工作

在本节中，我们调查了关于自动驾驶体系结构、自动车辆控制的强化学习和车辆区块链技术的现有文献。

A. 自动驾驶的架构

单车智能方法主要通过提高车辆本身的智能来实现。通过在CAV上安装各种传感器(如雷达、摄像机和激光雷达)、通信单元和高性能计算机，它能够自主感知驾驶环境，做出决策，并执行它们。也就是说，数据收集、ML模型学习和训练以及决策都是在每个CAV中局部进行的。在这种情况下，每个CAV独立分析特定数据来训练ML模型。考虑到应用的规模，这种方法存在一些问题:

1)机载传感器的感知条件和范围有限，可能产生不准确的数据。

2)单一的CAV所涉及的驾驶环境非常有限，很难处理复杂的情况。

3)基于人工智能的CAVs机器学习技术的性质无疑将会随着时间的推移而演变，变得更加复杂，对单辆车的计算能力构成挑战。提高车辆的智能化程度，在可靠性和经济性方面仍存在一些不足。因此，目前大多数的单车智能方案都被研究人员用于实验和测试。

另一种方法是被许多公司采用的集中式方法(例如，Tesla)，其中ML出现在云中。具体来说，每个CAV通过传感器在本地收集数据，然后上传到云端。一般来说，云是为每个CAV提供AI能力，由汽车制造商或其他公司设置。收集到足够的数据后，在云端进行机器学习，得到一个统一的ML模型，并推回每个CAV。在自动驾驶过程中，每个CAV都会定期从云端下载最新的全球ML模型，并根据收集到的数据进行持续决策。通过车载无线(OTA)功能实现数据上传和模型下载。在这种方法中，CAVs不需要在本地学习ML模型，只需要收集和上传数据。因此，这种方式存在一些问题:

1)海量的数据(每个CAV在开车时每天大约有40TB的数据)给现有的通信网络带来了巨大的挑战。

2)整合来自全球CAV的数据需要巨大的存储中心。

3)数据共享到云端会带来隐私和安全问题。

4)过度依赖中央服务器会影响CAVs的表现。

针对上述问题，CAVs和边缘协同进行分布式学习是一种很有前途的方法。因此，利用谷歌提出的**联邦学习(FL)**可以生成有效的自主驾驶方法。在FL中，收集的训练数据不需要上传到中央服务器，但是ML模型训练是在每个CAV上本地进行的。因此，该方法使用一个本地学习的ML模型来代替大量原始数据的传输，在一定程度上减轻了通信负担，保护了用户的隐私。接下来，在中央服务器上进行全局ML更新，这意味着每个CAV使用统一的ML模型进行新一轮学习。Samarakoon等人提出利用联邦学习来实现超低延迟和可靠的车对车(V2V)通信，这可以大大减少需要交换的数据量。Ferdowsi等[25]提出，FL可用于车辆排控制中，通过车辆协同学习共享预测模型，从而减少数据交换和计算负荷。**本文受到FL的启发，在不同的方面进行了进一步的探索和改进。**例如，由于架构的变化，我们用区块链系统替换了传统FL中的中央服务器。此外，全局模型的更新方式也发生了变化，这可以进一步减少对中央服务器的依赖，使模型更适合每个CAV自己的环境。详情将在稍后介绍。

B. 用于自主车辆决策的强化学习

基于DRL的算法能够很好地学习CAVs的驾驶环境并做出相应的驾驶决策。最常见的应用程序是CACC系统。基于Q-Learning算法和博弈论，设计了汽车CACC系统的多级体系结构。这项工作同时考虑了低层和高层控制器。具体来说，低级控制器执行低级操作，而高级控制器用于协调车辆。在文献[5]中，提出了一种基于监督强化学习(SRL)的CACC系统框架。其中，在训练过程中，在主管和收入调度员的指导下对网络进行更新。此外，还设计了一些避碰算法。Xiong等人在稳定环境下学习驾驶策略下，提出了一种将深度强化学习与基于安全控制相结合的自主驾驶与避碰系统。此外，为精确学习变道和保持变道行为，还提出了一些有意义的研究。Chen等提出使用DRL来学习密集交通中的变道行为。Sallab等人使用了两种强化学习算法，即深度Q-Network算法(DQN)和深度确定性演员-评论家算法(DDAC)，以执行自动道路保持协助。具体来说，DQN用于处理离散动作，而对于连续动作类别，则使用DDAC。在文献[27]中，提出了基于RL的模型来解决高速公路自动驾驶车辆的路径规划问题。大部分工作取得了令人满意的效果，但主要考虑的是间距、速度等简单指标。因此，它们不能直接应用于更复杂的情况，如变道或超车。

C. 车辆区块链

区块链本质上是一个分散的数据库，它指的是一种通过分散来共同维护可靠数据库的技术解决方案。目前区块链技术在自主驾驶中的应用研究还处于初级阶段。

Cebe等人提出了一个基于区块链的框架来管理自动驾驶车辆收集的数据，挖掘事故后数据。Kang等人使用运行在区块链上的合同在车联网(IoV)上安全存储和共享数据。其中，车辆既充当数据提供者，也充当请求者。在[29]中提出了一种基于以太坊概念的分布式自管理车辆自组织网络(VANET)体系结构。该架构主要使用以太坊的合同系统来组织和自我管理运行在路边单位(RSUs)的各种应用程序，为系统内的车辆提供各种服务。针对互联网给智能汽车带来的位置跟踪、远程劫持车辆等一系列安全和隐私威胁，Dorri等提出了一种基于区块链的架构来保护用户隐私，提高汽车生态系统[30]的安全性。同样，在[31]中，我们提出将区块链技术应用于比特币中，建立一个可信可靠的智能车(IV)数据共享框架，其中区块链技术被认为是数据共享的骨干。Yang等人[32]提出了一种基于车辆区块链技术的分散信任管理系统，主要用于解决由于不可信环境导致车辆难以对接收到的消息进行可信度评估的问题。特别是，贝叶斯推理模型用于验证从邻近车辆接收到的信息。

然而，尽管上述重要工作为准确学习变道行为做出了很大的努力，但仍存在一定的局限性。具体来说，使用DRL进行变道行为学习的效果相当好。但是，由于单个CAV计算能力有限，驾驶场景有限，从车辆协作的角度出发，值得继续深入研究。此外，结合机器学习的特点和CAVs的发展，**目前的自主驾驶架构还存在数据传输、数据存储、自主学习、隐私和安全等问题。**因此，本文进一步提出了一种基于车块链的集体学习框架，充分考虑了CAVs的集体智能、区块链技术和知识转移的优势。

三、系统模型

在本节中，我们讨论了本文所考虑的变道情况。然后对变道过程和制动过程进行细化，用于指导算法设计。本文的主要缩写和符号列于表I和表II。

A. 场景

变道行为在自动驾驶中非常普遍，主要发生在车辆从原车道行驶到目标车道时。例如，如果一辆汽车想在下一个十字路口改变行驶方向，就需要提前换到最左边或最右边的车道。另一种情况是前车(LV)速度太慢，目标车(OV)需要超车以提高驾驶效率。超车过程中涉及车辆的变道行为。图1描绘了一个典型的车辆变道场景。

车辆的变道行为不仅受到周围车辆的影响，而且还对当前的交通状态作出反应。不恰当的换道行为不仅会影响交通效率，甚至会导致不同类型的交通事故。因此，为了避免事故的发生，一方面需要通过车载传感器实时采集数据，利用通信技术与周围车辆互动获取状态信息。另一方面，车辆应该能够提前发现潜在的危险并进行有效的变道操作。然而，不准确的数据(如车辆位置、车速、噪声数据等)会给这个过程带来很多不确定性，这使得自动变道策略的设计仍然具有挑战性。当OV想要换道时，根据OV和周围车辆的当前状态数据，OV需要做出适当的转向、加速或制动决策。因此，自动换道系统应该能够适应不同的驾驶场景，做出快速准确的决策。

B. 变道过程

如图1所示，为了保证OV安全换道，需要避免OV与周围车辆发生碰撞，即，跟随图中车辆(FV)和LV。其中，FV包括FOV(跟随OV同一车道的车辆)和FDV(跟随不同车道的车辆跟随OV)。LV包括LOV(与OV同车道的前车)和LDV(与OV不同车道的前车)。在变道分析过程中，我们采用了目前广泛使用的最小安全间距，它考虑了更全面的场景[33]、[34]。当车辆发生变化时，OV和周围其他车辆可接受的最小安全间距可由下式求得：

四、自主变道深度强化学习

在本节中，我们将变道控制问题定义为一个确定自动驾驶最优策略的DRL过程，如图2所示，从而允许CAVs在无事故的情况下做出适当的变道行为。详细描述了自动换道系统中DRL的结构、状态函数、动作函数和奖励函数。

A. 自动变道系统参数

如图1所示，OV在t时刻以速度 $v_{OV}(t)$ 在位置 $P_{OV}(t)$ 运动，运动方向以虚线箭头表示。由于导航(在下一个十字路口转弯)、速度(需要超车)和其他原因，OV可能需要采取变道行为。假设OV周围的其他车辆以原速度匀速行驶。将各CAV的变道行为制定为一个MDP，并提出采用基于DRL的方法来学习变道行为。

在自动驾驶过程中，一方面，车辆需要根据规划路线选择行驶道路，即是否变道。另一方面，有必要根据当前的驾驶状态和周围车辆对未来的安全驾驶行为进行推理，包括制动、加速等操作。如第三节所述。B，在车辆变道场景中，我们主要需要考虑纵向方向的相对位置。根据OV与周围车辆的相对速度、相对加速度和位置，选择合适的转向、制动或加速级别，实现自动驾驶，避免事故发生。每到 $\Delta T$ 期，OV会更新资料及重新评估有关情况。这种策略的主要目标是在一个事件中最大化累积的奖励。特别的是，有一次开始时，OV有意图改变车道。直到OV成功换道或发生碰撞为止，可以表示为cond = change或cond = collision。为了使用DRL进行最优自主变道行为学习，我们将详细描述状态空间、动作空间和奖励函数。

1)状态:在自动变道中，t时刻的状态空间可以表示为：

$s(t)= \{v_{OV}(t),P_{OV}(t),a_{OV}(t),v_i(t),P_i(t),a_i(t) \}$

其中 $v_{OV}(t)$ 、 $P_{OV}(t)$ 、 $a_{OV}(t)$ 表示OV的速度、位置和加速度; $v_i(t)$ 、 $P_i(t)$ 、 $a_i(t)$ 分别表示OV周围车辆的速度、位置和加速度，即FDV、LDV、FOV、LOV。

动作:自动驾驶的变道需要几个动作，即是否变道，如何变道。因此，动作

a (t)

包括转向

a_s(t)

、制动

a_b(t)

和节流

a_t(t)

，可表示为:

$a(t)= \{a_s(t),a_b(t),a_t(t) \}$

具体来说，这些行为可以分为是否换道和如何换道两层。因此， $a_s$ 首先包括 $a_{left}$ 、 $a_{right}$ 和 $a_{straight}$ 。其中，由于车辆在换道时一般都是加速的，所以在变左或变右时，不会有刹车作用。动作空间可以分解为:

其中 $a_b(t)$ 属于[-10,0]和$a_t(t) $属于[0,10]表示不同的减速和加速度水平。绝对值越大表示减速/加速度越大。 $a_b(t)= 0$ 或 $a_t(t)= 0$ 表示维持原车速。

奖励: 奖励功能是对当前状态的评估，对于学习安全高效的车辆变道行为过程至关重要。在这种情况下，主要考虑两种情况:

1)变道过程必须是安全的，即变道过程中不发生事故;

2)频繁的变道行为会降低交通效率，有必要限制不必要的变道行为。因此，奖励功能由以下两部分构成：

式中，a为权重参数，其值大于0。术语1(cond = collsion)表示碰撞发生时值为1，否则为0。

式中，Sh(OV)表示OV与周围车辆i的距离。因此，(8)表示发生事故时对车辆的处罚，且处罚与车辆速度有关。这是因为车速越高，事故可能越严重。改变车道行为的必要性。

当CAV当前行驶车道与目的地方向不一致时，需要换道。也就是说，如果车辆在下一个十字路口需要左转，就必须提前行驶到最左边的车道。术语(当前车道=目的地方向)表示当前行驶车道可以行驶到目的地，其值为1。当车辆当前车道到达目的地时，变道行为将受到处罚。因此，(10)表示对不必要的变道行为的处罚。整体奖励函数是上述各项与相应权重的线性组合：

r(t) = w1r1(t) + w2r2(t)。我们认为事故的危害更大，所以我们认为事故的危害更大。 w1 > w2。

B. 自动变道DDPG

我们将CAVs的自动变道策略学习制定为强化学习问题，并使用基于AC架构的算法来解决此DRL问题，如图3所示。由于在这种情况下状态变量不需要以图像的形式呈现，因此仅需要从车载传感器和通信系统中获取诸如速度，加速度和位置之类的测量信息，这些信息就可以组合成一个向量在时间 $t$ 形成MDP（马尔可夫决策过程）状态 $s (t)$ 。因此，我们决定使用DNN（深度神经网络）代替传统方法的卷积神经网络(CNN)结构，这样可以大大简化网络，减少计算负担。actor和critic都使用多隐含层的DNN，隐含层和输出层都使用ReLU函数作为激活函数。

本文采用DDPG算法来解决自主变道问题，这是AC架构下的一种典型算法。参数sitarU和sitarQ的DNNs分别代表了DDPG中的确定性策略和值函数。特别地，DDPG在保留DQN内存重放和目标网络的同时使用了AC架构。在DDPG算法中，批评家函数Q(s, a)和演员函数（s| sitar u）分别参数化。与DQN相似，每一部分都包含两个神经网络，即：主网络和目标网络，如图3所示。在主网络中，对于评论家来说，状态 $s (t)$ ，当前执行的动作a(t)和演员的输出作为输入。输出是状态——动作值 $Q(a_t)$ 和 $Q (a (t))$ ，分别用于计算损失和更新参与者。批评家网络更新的方式是尽量减少损失。评论家的损失函数类似于Q-learning中的价值函数，可以表示为：

其中N是采样时间的时间范围。

对于actor网络，只考虑状态s(t)作为输入。输出为状态s(t)下应该执行的期望动作a(t)，如(6)和(7)所述。actor将当前状态映射为当前最优动作，同时更新网络参数如下：

经过一定次数的迭代后，DQN将主要网络参数复制到目标网络。与DQN不同的是，DDPG中的目标网络参数在每次迭代中通过软目标更新，慢慢逼近主网络参数。软更新可以表示为:

这样，网络参数变化缓慢，提高了学习过程的稳定性。

五、车辆区块链辅助的知识共享

考虑到单个CAV的能力有限，我们利用CAVs的集体智慧来提高自动变道策略的性能。本节提出了BCL框架，该框架集成了集体学习、知识转移和车辆区块链操作，以创建一个安全有效的CAVs知识共享系统。

A. 框架概述

本文提出的CAVs知识共享框架主要得益于边缘计算和区块链技术的支持，如图4所示。与我们之前的工作类似，BCL框架主要包括用户(CAVs)、MECNs和区块链系统。特别是用区块链系统代替传统FL中的中央服务器，可以保证用户隐私和数据安全。此外，从各种本地ML模型(如用于自动换道的DRL模型)中提取和共享高层知识，进一步减少数据传输。BCL主要有五种操作，可以总结如下：

(1)本地DRL模型学习:BCL中的每个CAV收集数据，在本地训练DRL模型。

(2)本地知识上传:每个CAV获得本地DRL模型后，抽取相应的知识(特权信息），并将其上传到附近的MECN(移动边缘)以获得相应的奖励。

(3)一致和写入块:MECN （）领导者将所有已验证的局部知识集合起来，打包成块进行一致。一旦达成一致意见，该块将被添加到区块链的末尾。

(4)全局特权信息下载:各CAV从区块链下载最新的本地自动换道知识资源。

(5)全局DRL模型更新:每个CAV在获得局部知识集合后，结合特权信息和局部数据计算其全局DRL模型。

接下来，我们将细化流程中的重要操作。

B. 集体学习操作

假设有一组CAVs V = {v1，v2，…，vj，…，vm}，希望使用集体学习来更好地进行自动车道变更，其中vj是V中的第j个CAV， m是CAVs的总数。 CAV vj通过车载传感器系统收集驾驶状态数据dj并训练本地DRL模型ldj。之后，CAV vj将从最新的本地DRL模型ldj中提取相应的知识kj并将其上传到最近的MECN。在正常情况下，即不会发生CAV故障，在一段时间T之后，该时期内所有已验证的本地知识K = {k1，k2，…，kj，…，km}将被汇总并添加到区块链系统中。假设每个CAV在每个期间仅上载最新知识，并且它们训练的DRL模型在结构上相同。接下来，每个CAV从区块链下载知识K的集合，最后选择有效知识并根据其自身数据进行更有效的自主变道行为学习。

在不同的CAVs训练和学习模型上花费的时间有所不同。为了简化问题，我们考虑所有CAVs以同步方式上载和下载其知识。这样，每个T（T大于最大学习时间），所有CAVs都会学习其本地DRL模型，并将提取的知识同时上传到MECN。在下一个周期的开始，所有CAV同时从区块链下载最新的知识K集合，然后计算自己的DRL模型。

但是，某些情况下，某些CAVs可能会由于故障而无法正常上传或下载驾驶知识。如果CAV无法在T内上载最新的驾驶知识边缘，则意味着CAV错过了这一轮模型共享，并将等待下一个共享共享周期（甚至几个周期），直到其故障得到修复。在此期间，MECN收集的知识量将小于m。对于MECN，他们负责从每个T中的CAVs收集驾驶知识，并且知识量小于或等于m。

一旦成功验证并上传了CAV的本地知识，它将从其关联的MECN获得数据上传的奖励。奖励可以是某种车辆令牌，它与CAV上载的数据量有关。

特别是，车载区块链网络仅存储CAV的“集体情报”（有关车道变更行为的知识），而不是像传统FL的中央服务器一样更新全局DRL模型。与传统的FL（由中央服务器更新统一的全局DRL模型）不同，在建议的BCL框架中，每个CAV的新DRL模型（全局DRL模型）是通过下载的知识集合本地计算的。因此，每个CAV基于其收集的数据计算的全局DRL模型是不同的。尽管无法获得统一的全局模型，但是本地训练的模型将更适合其自身的环境。该框架进一步降低了对中央服务器的依赖性，这表明我们的提议的性能不会像集中式或分布式方法那样容易受到中央服务器故障的影响。另外，由于全局模型是在每个CAV中本地更新的，因此单个CAV在此过程中的失败将不会影响其他CAV更新其模型。接下来，我们将详细介绍知识转移和车载区块链系统。

C. 知识转移操作

与直接共享DRL模型相比，提取诸如人类学习之类的相应知识作为特权信息进行共享不仅可以加快训练过程并达到更高水平的性能，还可以进一步减少传输的数据量，从而进一步减少通信量负担。因此，当我们共享CAVs的“集体智慧”时，我们使用知识信息而不是DRL模型。

知识的积累和转移是在人类学习中自动进行的，无需有意识的思考，即可自动将新任务与以前的知识相关联。将先前的知识和经验应用于学习过程可以快速启动新任务。可以看出，人类学习在很大程度上依赖于知识的转移，这在一定程度上影响着人类的智力水平。同样，知识转移可以提高机器学习的性能。知识转移可以通过重用以前积累的知识来促进对类似新任务的学习。

如第四部分所述，对于CAVs的自动换道系统，每个CAV需要使用DRL来学习最佳策略。学习模型中的某些数据是相似的，并且模型结构是一致的。因此，从DRL模型提取的知识可以在CAV之间共享（可能进行修改）。可以认为，可以通过知识共享来加速学习过程，它比每个CAV的独立训练要好。此外，这些CAV可能会反复遇到相同的情况，并在每次遇到类似情况后使用集体学习和知识转移来改善DRL模型。

在本文中，我们将不同情况下需要采取的变道行为共享为知识，即减少行动空间。我们在集体学习过程中实施知识转移如下：

（1）知识提取:每个CAV通过DRL学习最优变道策略，并不断积累经验。与自然语言表达一样，从模型学习中提取的知识可以理解为对特定环境下特权信息的描述。例如，当车辆之间的距离大于x米时，变道行为的加速度不会导致事故。因此，知识信息可以表示为CAV的动作空间。

（2）动作选择：CAV vj下载知识K的集合后，它将选择相似度最高的案例，并使用从其他CAVs KS（Ks j K）传递来的动作信息及其当前动作空间来生成整个动作空间范围。通常，vj当前动作空间的范围大于知识中包含的动作。因此，更新后的操作空间的范围主要由知识中包含的操作的最大值和最小值确定。

（3）DRL模型更新：获取新的动作空间后，vj将其应用于自主变道行为学习，如第IV节所述。然后，vj从最新的DRL模型中提取知识，并将其上载到车辆区块链网络。

通过知识转移，一方面，特权信息减少了不必要的行动空间，从而加速了学习过程。另一方面，通过知识的不断积累和对DRL模型的完善，整个网络的CAVs可以学习到最优的自主驾驶模型。

D. 区块链操作

通常，由于各种原因（例如传感器故障，攻击甚至自私），CAV可能会提供不准确甚至错误的知识，而MECN也可能会失败或受到攻击。在进行集体学习时，上述条件将影响DRL模型的准确性以及所有CAVs的自动驾驶安全性。因此，由于区块链系统的特性，使用车载区块链系统代替中央服务器可以使集体学习过程安全，自动和透明，从而避免了虚假信息共享。另外，应用于区块链的非对称加密技术可以最大程度地保护记录和用户的隐私。考虑到成本和效率，我们使用在特定区域（例如市区）内的MECN上运行的联盟区块链。

vj训练了本地DRL模型ldj后，它将发送请求消息，以将提取的知识上载到附近的MECN MECNi（系统中的第i个MECN）。记录信息如下：其中Kpu j表示标识符（即公钥）。 h（Blockt $ 1）表示最新块的哈希。 kj表示提取的知识。具有请求者私钥Kpr j的签名用于保证所请求信息的真实性。当MECNi收到vj的请求时，它将验证有效性。验证请求后，MECNi将对vj做出响应，将请求和其他信息（例如MECNi的公钥和私钥）包装到新消息中：

其中Kpu i和Kpr i分别是MECNi的公钥和私钥。如果模型正确验证，则MECNi会将记录广播到其他验证节点以验证签名。同一边缘群集中的MECN定期收集从所有CAV上传的提取知识。

对于每个时期，主要人员（MECN负责人）将汇总的知识打包成块。如图5所示，每个块都包括时间戳，当前块和先前块的哈希以及提取的知识的集合。一旦达成共识，该区块将被添加到区块链的末尾。共识过程利用了容错委派的权益证明（BFT DPoS）算法，该算法是拜占庭容错（BFT）和委派的权益证明（DPoS）的组合[36]。

BFT-DPoS共识算法可以实现0.5s的块生成间隔，这大大提高了区块链的效率并节省了资源。达成共识的具体过程如下。首先，通过投票系统从授权的MECN中选择21个节点作为生产者。所有授权的MECN均可根据其持有的代币数量获得投票，并为区块生产者投票。然后，这21个生产者与他们的网络资源协商块拥有顺序。每个生产者以0.5s的间隔连续生成12个新块，然后切换到下一个生产者。当一轮生产完成时，系统将重新选择生产者。也就是说，在每一轮大宗生产中，确定了每个生产者。另外，生产块的奖励是相对确定的，并且奖励（令牌）通过车辆区块链系统给予生产者。由于引入了BFT协议，因此在生产者A生成第一个新块之后，A对该块进行签名并将其广播给其他生产者。其他生产者验证该块，然后对其进行签名，然后将其返回给A。A从14个不同的生产者接收到一个块后，该块将成为不可逆的块，并串联到区块链的末尾。生成新块的过程和对该块进行BFT共识的过程是同时执行的，即共识过程不影响新块的生成。

六、仿真结果与讨论

本节通过仿真对所提出的自主变道策略学习BCL框架的性能进行验证，主要从学习效率、准确性、系统安全性和鲁棒性等方面进行验证。仿真使用TensorFlow运行分布式账本技术(vDLT)区块链平台的DRL算法和虚拟化。首先，我们评估了DRL集体学习和知识转移的学习效率。接下来，我们研究了该方法在自动换道学习中的准确性和有效性。此外，我们验证了车辆区块链的性能，以确保系统的安全和鲁棒性。

A. 仿真设置

仿真场景为单向三车道，如图1所示。通过对车辆变道行为的模拟，生成了一个模拟DRL模型的环境。在仿真中，相邻CAVs的相对位置被提供给agent。特别地，我们在位置信息中加入了一些定位误差，使得仿真更加实用。假设在仿真过程中，FDV、FOV、LDV和LOV始终在原车道行驶。在每一集中，OV随机驾驶一条三车道车道，初始位置为(0,y)， y表示北向位置，根据不同车道确定。OV的目的地方向随机设置为左转、右转或直走。CAVs初始车速在20km/h ~ 80km/h之间随机分布车辆加速度在-8m/s2 ~ 8m/s2，负值表示制动，正值表示加速。考虑到车辆的最小转弯半径、车辆的轴距和轮胎的偏置，方向盘角度在[-60,60]度范围内为连续值，其中负值为左转，正值为右转。道路长度设置为3km，单车道宽度3.5m。在模拟中，用于集体学习的CAVs设置为2-5。

在基于DRL的自动变道仿真中，我们训练确定性策略来实现连续运动控制。DRL的参数设置考虑到了问题的复杂性，并参考了现有的工作。对于DDPG算法，actor和critic都使用完全连接的DNN。我们将层数设置为4，每个隐藏层的节点数为50。actor和critic的学习率分别设置为1e-3和1e-4。折现系数gamma和更新率Tau分别设置为0.9和0.001。重播缓冲区D的最大大小被设置为15000。根据需要共享的知识和共识算法，块大小为8MB，最大块间隔为500ms。车辆动力学详细参数设置如表3所示

学习效率:在我们提出的集体学习框架中，这个指标用于评价CAVs机器学习的效率。

准确性:该指标用于评估我们的方案中自动换道行为学习的性能。

安全性和鲁棒性:此指标用于评估区块链技术在我们提议的安全性方面的性能。

为了评估我们的方案的性能，我们在不同的方法和不同的情况下进行了模拟比较。

B. 仿真结果

学习效率。我们比较了以下几种情况:

1)集中式方法，即车辆收集数据，ML模型由中央服务器训练;

2)模型共享，即在提出的BCL框架下，车辆共享ML模型，各CAV根据共享模型和自身数据更新DRL模型;

3)知识转移，即车辆在提出的BCL框架下共享ML模型中提取的知识，每个CAV根据共享的知识和自身数据更新DRL模型。在这三种方法的仿真中，使用的自动换道行为学习算法为DDPG。

效率绩效评价结果如图6所示，显示了不同方法下强化学习agent和训练事件获得的奖励变化情况。从图中可以看出，随着情节的增加，三种方法获得的奖励逐渐稳定且最优。这说明最优控制策略已经被很好地学习，从而使长期的回报最大化。通过对比可以发现，我们提出的带知识转移的BCL的效率是相对最好的，在562集中获得的奖励是稳定的。同时，在模拟过程中没有过多的波动。其根本原因是知识的积累和转移，减少了不必要行动的选择，接近最优策略。对于采用模型共享方法的BCL，其效率与我们的提议类似。这是因为OV继续基于CAVs在类似情况下训练的其他DRL模型来训练自己的模型。由于网络中所有CAVs的DRL模型结构相同，因此训练共享的DRL模型并确定了参数，保证了较高的学习效率。然而，我们可以预期，CAVs训练的ML模型是非常复杂的。随着系统中用于集体学习的CAVs数量的增加，模型共享需要大量的通信网络资源。对于集中式方法，在没有特权信息或训练模型的指导下，需要较长的训练时间(约917集)才能获得稳定的最优奖励。

然后，我们比较了在相同条件下使用DDPG和确定性策略梯度(DPG)算法学习自动换道行为的效率。同理，图7给出了不同算法下agent获得的奖励变化和训练事件。从图中可以看出，我们的方案所获得的奖励是最优的，并且在训练过程中没有出现分歧。然而，对于DPG算法，需要一个更长的插曲来稳定奖励(约879)。在达到稳定之前，报酬会有一些波动，比如422,533和545。因此，使用DDPG算法更有效地解决了自动驾驶的连续控制问题。

准确性：

1)提出的基于DDPG算法和BCL框架的自动换道行为学习;

2)不带知识转移的基于DDPG算法的自动换道行为学习;

3)基于DPG的无知识转移的自动换道行为学习;

4)基于运动学模型的传统策略。

我们首先对不同方法的自动变道精度进行评估，如图8所示。我们通过计算自动驾驶行为是否在路段成功完成来评估每种方法的性能。我们的方案在所有四种方法中表现出总体上的优越性能，完成自动变道成功率为95.5% (DDPG w/o 知识转移)。其他三种比较方法的成功率分别为90.7% (DDPG w/o知识转移)、84.2% (DPG w/o知识转移)和79.6% (动态模型)。成功的案例表明，在驾驶过程中没有发生事故，这包括了是否要换道的所有情况。

故障案例包括两种情况:碰撞事故和未能换道。碰撞事故主要是相邻车辆碰撞或与道路边界碰撞。碰撞的主要原因有两个。首先，当OV换道时，速度和转向过快，容易与道路边界相撞。第二，当OV换道时，它可能会与其他CAVs相撞。未能换线即指OV需要换线但未能完成。

接下来，我们具体分析了需要改变的情况和不同方法的效果。表4给出了仿真结果，包括变道成功率、事故率、变道失败率(无事故)。未能完成变道，是指由于环境因素，OV需要变道但未采取变道行为(一般为避免事故)。从表中可以看出，基于强化学习的方法在一定程度上提高了传统换道方法的性能，因为它与环境不断的相互作用和反馈。此外，我们的方案的性能优于比较方法，自动变道成功的完成率最高。对于基于RL的方法，由于奖励函数考虑事故的发生对驾驶员的危害更大，驾驶员更倾向于选择不会造成事故的行为，而传统方法则会尝试换道。因此，在某些情况下(两车间距较近)，传统策略导致的事故比例较高。相反，基于RL的方法可能会为了避免事故而放弃变道。

3)安全性和鲁棒性。为了评估区块链技术对系统安全性和鲁棒性的影响，我们随机将一些参与集体学习的CAVs设置为恶意节点。我们分别评价了有区块链和没有区块链的集体学习。恶意节点会提供虚假信息，虚假信息可能会降低自动换道行为学习的性能，甚至导致事故的发生。使用车载区块链代替中央服务器进行信息存储和共享可确保安全性和私密性。首先，共享的记录认证、数据的不可逆性等特性进一步加强了系统的安全性。此外，使用假名的匿名操作可以保护用户隐私。

图9给出了两种方法的成功率与恶意节点数的关系。在模拟中，我们将参与集体学习的CAVs人数设置为10人。恶意节点的数量设置为[0,5]。从图中可以看出，随着恶意节点数量的增加，如果不采用车辆区块链技术将严重影响车辆换道成功率。其根本原因是恶意节点的比例较低，虚假信息的影响较小。随着恶意节点比例的增加，会提供更多的虚假信息，CAVs很难学习到最优变道行为。同样，不成功的案例包括交通事故和未能正确换道。对于使用车辆区块链技术的集体学习，随着恶意节点数量的增加，性能仅略有下降。当恶意节点提供的虚假信息与真实信息存在差异时，一旦发现虚假信息，信息提供者将面临处罚，甚至直接从区块链系统中删除。在这种情况下，接受知识共享的CAVs人数减少，导致成绩下降。

综上所述，基于DRL的连续控制策略可以有效地应用于自主驾驶。此外，基于知识转移的集体学习架构可以加快机器学习的CAVs过程。最后，车载区块链技术的应用可以保证数据安全和用户隐私。(代替中央处理器)

七、结论

本文提出了一种基于区块链的集体学习框架，用于安全高效的自主变道行为学习。特别是对于自动驾驶，我们使用DRL来学习最优变道行为。其次，考虑到单个CAVs的能力有限和集中式方法的挑战，我们提出了一个集体学习框架，利用CAVs的集体智慧来提高自主变道策略的性能。基于该框架，我们细化了主要操作，即集体学习、知识转移和区块链操作。特别是对ML模型中提取的知识进行共享，提高了学习率和性能，同时减少了通信负担。采用车载区块链代替传统FL中的中央服务器，实现数据的安全存储。大量的仿真结果证明了我们的方案的有效性、准确性和鲁棒性。

本文提出的框架是一种探索，使机器学习在CAVs中更接近人类学习。对于我们未来的工作，我们主要关注以下两点:一是基于载体区块链的激励机制的设计，二是知识转移的最优选择机制。

Processed: 0.011, SQL: 9

自动变道系统

文章目录

自动变道系统

一 、介绍

二、 相关工作

A. 自动驾驶的架构

B. 用于自主车辆决策的强化学习

C. 车辆区块链

三、 系统模型

A. 场景

B. 变道过程

四、自主变道深度强化学习

A. 自动变道系统参数

B. 自动变道DDPG

五、车辆区块链辅助的知识共享

A. 框架概述

B. 集体学习操作

C. 知识转移操作

D. 区块链操作

六、仿真结果与讨论

A. 仿真设置

B. 仿真结果

七、结论

一、介绍

二、相关工作

三、系统模型