1 背景
随着中国城市轨道交通高速发展,上海、北京、广州、深圳等超大城市已迈入超大规模线网运营时代,运营场景复杂度显著提升、运营管理难度大幅提升,对信号系统提出了更高的要求。业主希望信号系统更安全,满足故障持续运营及系统全方位网络和信息安全;更可靠,避免运营中断,满足地铁系统持续运营要求;更高效,大幅提升折返能力,提升线路的运行能力;更绿色,满足国家双碳政策,实现节能降耗目标;更智能,实现列车自主运行控制,提升列车的感知及决策能力。随着新一代信息技术云计算、大数据、物联网、移动互联网、区块链及人工智能技术发展,信号系统在客户需求及新技术的双轮驱动下快速发展,特别是系统的智能化水平大幅提升。从支持列车有人自动驾驶运行模式到支持有人值守的无人驾驶模式,再到支持全自动无人驾驶模式,列车控制达到了很高的自动化程度。
列车自动运行控制(ATO)作为列车控制的重要组成部分,在经典的控制算法中,使用PID控制器对列车运行进行自动调节控制。基于当前的控制算法,在大部分运营时间里,列车控制表现良好。当前控制算法要求所有列车的牵引制动等性能基本一致,一旦列车性能发生变化,就可能导致列车控制不及时,影响列车停站精度,甚至有时无法对标站台,需要人工介入。传统PID控制算法需要大量真车调试来确定算法参数,真车调试涉及多专业配合,工作量大,一旦车辆性能发生改变,需要重新进行调试,无法适应对控制算法的快速迭代更新需求。
我们希望列车自动运行控制能够更加智能,更加自主,上海电气泰雷兹一直在探索新的算法,新的模型用于列车自动运行控制。《浅谈人工智能在ATO中应用与实践》一文中介绍了最新研究成果,使用人工智能强化学习算法,通过ATO对标停车阶段的系统自学习,解决了车辆低速阶段制动率改变导致的停站问题。新算法的成功应用表明人工智能这一热门技术和方法可以应用于控制领域,本文继续探讨人工智能技术在列车自动运行中的应用,首先介绍人工智能技术的基本概念和原理,然后探讨在列车自动运行中的应用。
2 人工智能技术介绍
人工智能(Artificial Intelligence,简称AI)是一门研究如何使机器能够拥有类似人类智能的技术和方法,主要包括二个部分,一个是应用领域,一个是实现技术,如下图1,列出了当前人工智能主要的应用领域和实现技术。
图1 人工智能组成
2.1 人工智能应用领域
人工智能主要的应用领域有:
• 计算机视觉:涉及图像分类、目标检测、图像分割和人脸识别等;
• 自然语言处理:文本分类、命名实体识别、情感分析、机器翻译和问答系统等,今年非常火的ChatGPT即属于这个领域的应用;
• 自动化和机器人技术:自动化技术可应用于生产线、物流和交通系统等领域,而机器人技术则可以实现自主导航、物体识别和协作;
• 推荐系统:推荐系统利用人工智能技术分析用户的兴趣和行为模式,为用户提供个性化的推荐服务;
• 语音识别和语音合成:自动语音识别技术使得计算机能够理解和转录人类的语音,而语音合成技术则可以将文本转化为自然流畅的语音。
2.2 机器学习
机器学习是人工智能的核心技术之一,它通过模拟或实现人类的学习行为,利用数据和相关算法让机器自动学习数据模型和特征,根据学习到的数据模型和特征,对新的输入数据进行预测来解决实际问题,例如人脸检测,通过机器学习,机器可以识别并掌握人脸的特征,依据这些特征从而在不同的图片中检测图片中是否有人脸。常见的机器学习算法包括监督学习、无监督学习。监督学习通过给定输入和对应输出的训练样本来进行学习,从而预测新的输入数据对应的输出,比如常见的回归问题。无监督学习则是从无标签的数据中发现模式和结构,对新的输入数据进行分类和判别,比如常见的分类问题。2.2.1 深度学习介绍
深度学习是一种常用的机器学习方法,它模仿人类大脑神经网络的结构和工作原理,通过构建和训练多层神经网络来实现对数据的学习和预测。
2.2.1.1 神经网络
如下图2是全连接神经网络结构,全连接神经网络是最早应用于深度学习的模型之一,全连接神经网络通常由输入层、若干隐藏层和输出层组成。输入层接收原始数据作为输入,隐藏层通过对输入进行加权处理和传递来提取特征,输出层生成最终的预测结果或分类概率。在全连接神经网络中,神经元之间的每一对节点都有连接,即每个神经元与前一层的所有神经元都有连接,并且每个连接都有一个权重。这意味着输入层的每个神经元都连接到隐藏层的每个神经元,而隐藏层的每个神经元又连接到输出层的每个神经元。神经网络的本质就是通过参数和激活函数来拟合特征和目标之间的函数关系。信息从输入层传递到输出层,中间的隐藏层通过网络连接进行处理和转换。每个神经元接收来自前一层的输入,并通过激活函数将其加权求和后产生输出。是第l-1层神经网络的输出值,也是l层网络的输入值;是l-1层到l层的权重矩阵,是一个矩阵,是l-1层到l层的偏置参数向量,可以理解为一个矩阵,为l层神经元个数,为l-1层神经元个数;函数是激活函数。神经网络网络的学习就是根据数据,通过算法确定神经网络各层的权重参数和偏置参数值,一般情况下是定义网络的代价函数,通过梯度下降反向传播算法更新神经网络的参数,当代价函数值取得最小时的网络参数即为学习网络的参数值。2.2.1.2 深度学习网络
深度学习的核心组成部分是深度神经网络(Deep Neural Network,DNN),深度神经网络由多个神经网络层组成。深度学习的关键特点是通过反向传播算法进行训练,在训练过程中,深度神经网络根据与真实结果的差异来调整网络中的权重和偏置参数,以使预测结果更加准确。深度学习借助于神经网络的结构和参数优化,通过迭代式的训练过程可以有效地学习到数据中的复杂特征和规律。
图4是深度学习中的一种经典网络结构AlexNet,它是是一个卷积神经网络(CNN),由多个卷积层、池化层和全连接层组成,通过逐层对数据进行正向传播算法处理和反向传播算法进行训练确定和调整网络中的参数。AlexNet最初的应用是通过对数百万张图像进行训练,能够高效地提取图像中的特征,并实现准确的图像分类。图4 AlexNet网络结构
2.2.2 强化学习介绍
强化学习(Reinforcement Learning)是机器学习的一个分支,旨在通过智能体(Agent)与环境的交互学习最优策略,以使智能体能够在某个目标任务中获得最大的奖励。如下图5是强化学习组成图,强化学习的基本组成部分包括:
• 智能体(Agent):代表学习系统,即具有感知和决策能力的实体。它根据环境状态采取行动,并根据行动的结果获得奖励或惩罚。
• 环境(Environment):代表智能体所处的外部环境,可以是真实世界、虚拟环境或模拟器等。环境根据智能体的行动状态提供反馈,包括当前状态、奖励信号和下一个状态等信息。
• 状态(State):描述环境的特征或观测,用来表示环境的某一时刻的情况。
• 行动(Action):智能体根据当前状态选择的操作或策略。
• 奖励(Reward):根据智能体的行动和环境的反馈,用来衡量行动的好坏。
图5 强化学习组成
强化学习的核心思想是通过智能体与环境的交互进行试错学习。智能体在环境中尝试不同的行动以探索环境,并根据获得的奖励信号进行策略更新以优化长期总体回报。这个过程通常通过价值函数(Value Function)和策略(Policy)来实现。价值函数用于评估在给定状态下采取某个行动的长期回报预期,即衡量某个状态-行动对的价值。策略定义了智能体如何在特定状态下选择行动的方法。
强化学习通过优化策略函数来做决策,策略函数是智能体在给定状态下选择行动的规则或策略。决策过程通常分为以下步骤:
• 状态观测:智能体通过感知环境获取当前状态的观测值。
• 策略评估:基于当前状态和策略函数,智能体评估每个可能的行动的价值或概率,并选择具有最高价值或最高概率的行动。
• 行动执行:智能体采取所选择的行动与环境进行交互。
• 奖励观测:智能体观测到由环境提供的奖励信号,该信号表示对智能体行为的评价。
• 策略更新:根据观测到的奖励信号,智能体使用强化学习算法来更新策略函数,使得在类似状态下更有可能选择获得更高奖励的行动。
图6 强化学习决策过程
这个过程被循环执行,智能体不断与环境进行交互、观测奖励并更新策略,以逐渐优化其决策能力。在强化学习中,存在两种主要类型的决策方法:
• 基于值函数的决策:智能体通过估计价值函数来评估每个可能行动的价值,并选择具有最高预期回报的行动。常见的方法包括Q-learning和深度强化学习中的Deep Q-Network(DQN)。
• 基于策略函数的决策:智能体直接优化策略函数,根据当前状态输出行动的概率分布。常见的方法有策略梯度算
决策过程在探索与利用之间存在平衡。探索是指智能体尝试新的行动以发现更好的策略,而利用是指根据已有知识选择已知的最优行动。通常采用的策略包括ε-greedy策略、UCB算法等。强化学习通过不断交互、学习和更新策略来进行决策,从而使智能体能够逐渐掌握环境并做出最优的决策。
3 应用探讨
3.1 利用车辆特性参数自学习优化车辆特性仿真模型
列车仿真模型通常是将列车简化为线性动力学系统,通过动力学方程对列车进行模拟,以满足控制算法测试应用的需求。但仿真模型无法综合考虑牵引力、阻力、动力系统特性以及制动系统的特性和限制等因素,仿真模型做了大量简化,难以模拟真实列车的车辆系统特性。而列车自动运行控制算法需要根据车辆系统特性相关参数对列车进行精确控制,为了获取真实的车辆系统特性参数,需要使用真车进行调试,工作量大,而且如果自动运行控制算法要做改动,需要重新调试。车辆仿真平台无法适应真实的调试需求,因此搭建符合车辆特性的仿真平台,使之能够满足真实车辆动力学特性的仿真要求,是对列车自动运行控制进行优化和改进的基础和前提。
列车自动运行控制通过给车辆输出牵引制动命令和对应的级位信息来控制列车的运行,控制算法就是根据车辆的特性参数和当前的目标速度等信息确定要输出的牵引制动命令和对应的级位信息,如下图7是真实的列车对VOBC输出的控制信息的响应曲线。
图7 列车响应曲线
我们希望车辆仿真模型也可以比较真实的仿真出真车的响应曲线,实现对真车的仿真要求,通过引入人工智能的学习方法,车辆仿真模型根据真实的列车对VOBC输出的控制信息的响应数据,使用自学习的方法来学习真车的响应规律/特征来输出仿真车辆的响应信息就是我们考虑的应用方向,如下图8是列车特性学习网络结构。
首先从运营的列车收集列车运行的真实数据,这些数据至少包含VOBC下发的控制信息和列车的反馈信息,即VOBC给列车发送的牵引制动命令以及级位信息;然后对数据进行预处理,即将数据按照控制执行周期整理为(列车牵引制动命令,牵引制动级位,坡度,当前命令的执行周期,列车的加速度)的格式,其中列车牵引控制命令、牵引制动级位、坡度、当前命令的执行周期为输入值,列车牵引控制命令、牵引制动级位、坡度可以从数据中获取,因为VOBC发送的列车牵引制动命令是有一个执行周期,我们希望网络可以学到到一个命令周期下任意一个检测时间点的响应信息,因此把当前数据对应的执行周期也根据数据的时间轴的顺序加入到输入值中让网络进行学习;列车的加速度为输出值;将整理出固定格式的数据根据牵引制动命令的不同分为3类数据,即牵引命令数据,制动命令数据,惰行命令数据;再把这3类数据随机分成60%训练数据,20%校验数据和20%测试数据;使用均方差的代价函数,将训练数据加入学习网络中进行训练,用校验数据校验学习网络,测试数据对学习网络进行测试,最后可以得到一个根据真实列车数据学习得到的列车特性学习网络。
如下图9是列车仿真模型使用训练好的列车特性网络模拟列车响应的结构,列车仿真模型收到VOBC发生的车辆控制信息(牵引制动命令和级位)后,它需要根据列车当前的位置获取对应的坡度信息,然后根据收到命令的时间去计算当前控制信息在当前控制命令的周期数,将(列车牵引制动命令,牵引制动级位,坡度,当前命令的执行周期)作为列车特性网络的输入得到网络的输出值即列车的加速度值,根据列车加速度值计算出列车的速度等信息作为车辆响应信息发送给VOBC。VOBC通过列车仿真模型就可以验证列车控制算法。
3.2 利用车辆特性参数自学习监测车辆特性变化
列车自动运行控制要求车辆特性符合控车要求,实际运营中发现很多问题都是由于车辆特性发生了改变,不能满足控车要求导致的。因此对车辆特性变化情况进行监测,提前发现相关问题,对列车进行预测性维护,能够有效减少相关列车控制问题。
在运营前期,VOBC会根据车辆接口文档提供的车辆特性参数进行真车的车辆特性测试,获取相关车辆特性参数,例如车辆最大的加减速度,牵引制动延时等参数,这些参数可以作为理想的控车参数作为基准。在运营后,可以周期性获取车辆运行过程中的数据,通过数据分析算法,根据列车真实数据自动计算得到车辆的性能参数,将这些参数和基准参数进行比较,如果它们的值的差异在误差范围内,则判断车辆性能未发生改变。同时按照3.1章节的人工智能算法,我们已经得到了一个车辆特性网络,我们可以将实际运营中的列车控制参数作为输入值输入到网络中,得到期望的列车的响应曲线,通过每个相同的输入值得到的期望响应值与实际列车运行过程中采集的响应值进行逐个执行周期比较,可以分析车辆特性的变化趋势。
如下图10是车辆特性监控流程,
3.3 人工智能算法应用于列车自动运行智能控制
人工智能技术应用于列车自动运行控制,首先可以使用机器学习算法训练一个车辆特性网络来模拟系统的动态响应,使用这个车辆特性网络与当前的列车自动运行控制算法结合使用,通过这个网络来改进列车自动运行控制算法的参数,使得列车自动运行控制算法可以更好的适应复杂的系统,可以有效减少与真实列车的联合调试工作。
其次,人工智能算法可以和列车自动运行控制算法结合使用,用于实现PID控制器参数自适应调整。当前使用的PI控制器需要在与列车联调时设置比例和积分参数,但是随着车辆运行状况的变化,这些参数可能不再适用。可以将强化学习应用于PI自适应控制中,使得PI控制器可以通过与环境的交互学习最优策略。PI控制器在不断试错的过程中,通过奖励和惩罚信号来调整自身的行为,实现优化的控制效果。还有一个应用方式是通过历史数据训练出一个车辆特性网络,根据车辆特性网络学习出的列车的动态特性来预测未来状态,将这些预测结果作为PI控制器的输入,以提高控制精度和响应速度。
最后直接将强化学习算法应用于列车自动运行控制,强化学习基于与环境的交互,通过奖励信号来指导控制器的学习过程进而确定控车策略,通过应用学习好的控车策略来控制列车自动运行。以优化列车的运行策略和性能。根据强化学习算法,应用强化学习于列车自动运行控制需要确定和执行如下步骤:
• 状态定义:需要定义列车控制中的状态(State),状态选择列车当前的位置、速度、加速度、目标距离,轨道坡度等信息。
• 动作选择:定义列车可以采取的动作(Action)空间。VOBC控制列车的牵引制动命令包括牵引、制动和惰行,对列车可以采取的动作可以为牵引(加速)、制动(减速)、惰行(保持当前速度)以及在这些动作下对级位信息加大,较小和维持当前值组成的动作集合。
• 奖励设计:需要设计一个奖励函数(Reward Function)。奖励函数根据列车的行为和目标来评估每个时间步的效果,鼓励有益的行为并惩罚不良的行为。在列车自动运行控制中,我们可以使用每个执行周期列车当前速度和目标速度的均方差来设计奖励函数。
• 学习过程:在每个控制周期中,VOBC根据当前状态选择一个动作,并将其应用于系统,动作的选择包含探索与利用两个方面,常用的方法是ε-greedy策略,即以ε的概率选择随机动作进行探索,以1-ε的概率选择基于当前策略的最佳动作进行利用;然后观察系统的下一个状态和获得的奖励,并使用强化学习算法来更新控制器的策略,常见的强化学习算法算法包括Q-learning、深度Q网络(DQN)、策略梯度方法等。这些算法通过不断与环境交互,学习选择最优的动作以最大化长期回报。这个过程不断迭代,直到控制器能够学习到最佳的策略。
• 策略应用:一旦训练完成,VOBC可以根据当前状态和学到的策略进行实时决策。它使用训练过程中学到的知识和经验,基于当前状态选择最优的动作,以实现高效、安全和可靠的列车运行。
通过应用强化学习于列车自动运行控制可以适应不同条件和变化的环境,但需要注意的是,在将强化学习应用于实际列车控制系统之前,必须进行充分的仿真和测试。强化学习是一种基于试错的参数调节算法,在实际环境中获取试错数据难度大,这个会影响到实际的部署应用,因此需要在模型和算法设计、数据、测试验证等方面进行充分的考量。
4 结语
本文主要介绍了人工智能技术的基本概念和原理,并探讨了其在列车自动运行控制中的应用。人工智能技术为实现智能化、高效化的列车自动运行控制带来了新的可能性,从技术原理上看,深度学习算法能够学习到系统的动态特性和控制规律,并根据实时数据进行自适应调整,实现精确的控制和系统特性监控;使用强化学习算法能够自主地感知环境、分析信息并做出决策,从而实现更高水平的自主控制。本文探讨了人工智能技术在列车自动运行中的潜在应用方向,然而,本文没有提到应用中的挑战和问题,如人工智能算法的健壮性,训练数据可靠性,人工智能算法需要的计算算力等方面,这些问题都需要进一步的研究和探索。
姚海波
上海电气泰雷兹交通自动化系统有限公司车载软件主管