图1 人工智能组成
2.1 人工智能应用领域
人工智能主要的应用领域有:
• 自然语言处理:文本分类、命名实体识别、情感分析、机器翻译和问答系统等,今年非常火的ChatGPT即属于这个领域的应用;
• 自动化和机器人技术:自动化技术可应用于生产线、物流和交通系统等领域,而机器人技术则可以实现自主导航、物体识别和协作;
• 推荐系统:推荐系统利用人工智能技术分析用户的兴趣和行为模式,为用户提供个性化的推荐服务;
• 语音识别和语音合成:自动语音识别技术使得计算机能够理解和转录人类的语音,而语音合成技术则可以将文本转化为自然流畅的语音。
2.2 机器学习
深度学习是一种常用的机器学习方法,它模仿人类大脑神经网络的结构和工作原理,通过构建和训练多层神经网络来实现对数据的学习和预测。
图4 AlexNet网络结构
• 环境(Environment):代表智能体所处的外部环境,可以是真实世界、虚拟环境或模拟器等。环境根据智能体的行动状态提供反馈,包括当前状态、奖励信号和下一个状态等信息。
• 状态(State):描述环境的特征或观测,用来表示环境的某一时刻的情况。
• 行动(Action):智能体根据当前状态选择的操作或策略。
• 奖励(Reward):根据智能体的行动和环境的反馈,用来衡量行动的好坏。
图5 强化学习组成
强化学习的核心思想是通过智能体与环境的交互进行试错学习。智能体在环境中尝试不同的行动以探索环境,并根据获得的奖励信号进行策略更新以优化长期总体回报。这个过程通常通过价值函数(Value Function)和策略(Policy)来实现。价值函数用于评估在给定状态下采取某个行动的长期回报预期,即衡量某个状态-行动对的价值。策略定义了智能体如何在特定状态下选择行动的方法。
• 策略评估:基于当前状态和策略函数,智能体评估每个可能的行动的价值或概率,并选择具有最高价值或最高概率的行动。
• 行动执行:智能体采取所选择的行动与环境进行交互。
• 奖励观测:智能体观测到由环境提供的奖励信号,该信号表示对智能体行为的评价。
• 策略更新:根据观测到的奖励信号,智能体使用强化学习算法来更新策略函数,使得在类似状态下更有可能选择获得更高奖励的行动。
图6 强化学习决策过程
• 基于策略函数的决策:智能体直接优化策略函数,根据当前状态输出行动的概率分布。常见的方法有策略梯度算
决策过程在探索与利用之间存在平衡。探索是指智能体尝试新的行动以发现更好的策略,而利用是指根据已有知识选择已知的最优行动。通常采用的策略包括ε-greedy策略、UCB算法等。强化学习通过不断交互、学习和更新策略来进行决策,从而使智能体能够逐渐掌握环境并做出最优的决策。
3.1 利用车辆特性参数自学习优化车辆特性仿真模型
列车仿真模型通常是将列车简化为线性动力学系统,通过动力学方程对列车进行模拟,以满足控制算法测试应用的需求。但仿真模型无法综合考虑牵引力、阻力、动力系统特性以及制动系统的特性和限制等因素,仿真模型做了大量简化,难以模拟真实列车的车辆系统特性。而列车自动运行控制算法需要根据车辆系统特性相关参数对列车进行精确控制,为了获取真实的车辆系统特性参数,需要使用真车进行调试,工作量大,而且如果自动运行控制算法要做改动,需要重新调试。车辆仿真平台无法适应真实的调试需求,因此搭建符合车辆特性的仿真平台,使之能够满足真实车辆动力学特性的仿真要求,是对列车自动运行控制进行优化和改进的基础和前提。
列车自动运行控制通过给车辆输出牵引制动命令和对应的级位信息来控制列车的运行,控制算法就是根据车辆的特性参数和当前的目标速度等信息确定要输出的牵引制动命令和对应的级位信息,如下图7是真实的列车对VOBC输出的控制信息的响应曲线。
图7 列车响应曲线
我们希望车辆仿真模型也可以比较真实的仿真出真车的响应曲线,实现对真车的仿真要求,通过引入人工智能的学习方法,车辆仿真模型根据真实的列车对VOBC输出的控制信息的响应数据,使用自学习的方法来学习真车的响应规律/特征来输出仿真车辆的响应信息就是我们考虑的应用方向,如下图8是列车特性学习网络结构。
首先从运营的列车收集列车运行的真实数据,这些数据至少包含VOBC下发的控制信息和列车的反馈信息,即VOBC给列车发送的牵引制动命令以及级位信息;然后对数据进行预处理,即将数据按照控制执行周期整理为(列车牵引制动命令,牵引制动级位,坡度,当前命令的执行周期,列车的加速度)的格式,其中列车牵引控制命令、牵引制动级位、坡度、当前命令的执行周期为输入值,列车牵引控制命令、牵引制动级位、坡度可以从数据中获取,因为VOBC发送的列车牵引制动命令是有一个执行周期,我们希望网络可以学到到一个命令周期下任意一个检测时间点的响应信息,因此把当前数据对应的执行周期也根据数据的时间轴的顺序加入到输入值中让网络进行学习;列车的加速度为输出值;将整理出固定格式的数据根据牵引制动命令的不同分为3类数据,即牵引命令数据,制动命令数据,惰行命令数据;再把这3类数据随机分成60%训练数据,20%校验数据和20%测试数据;使用均方差的代价函数,将训练数据加入学习网络中进行训练,用校验数据校验学习网络,测试数据对学习网络进行测试,最后可以得到一个根据真实列车数据学习得到的列车特性学习网络。
如下图9是列车仿真模型使用训练好的列车特性网络模拟列车响应的结构,列车仿真模型收到VOBC发生的车辆控制信息(牵引制动命令和级位)后,它需要根据列车当前的位置获取对应的坡度信息,然后根据收到命令的时间去计算当前控制信息在当前控制命令的周期数,将(列车牵引制动命令,牵引制动级位,坡度,当前命令的执行周期)作为列车特性网络的输入得到网络的输出值即列车的加速度值,根据列车加速度值计算出列车的速度等信息作为车辆响应信息发送给VOBC。VOBC通过列车仿真模型就可以验证列车控制算法。
在运营前期,VOBC会根据车辆接口文档提供的车辆特性参数进行真车的车辆特性测试,获取相关车辆特性参数,例如车辆最大的加减速度,牵引制动延时等参数,这些参数可以作为理想的控车参数作为基准。在运营后,可以周期性获取车辆运行过程中的数据,通过数据分析算法,根据列车真实数据自动计算得到车辆的性能参数,将这些参数和基准参数进行比较,如果它们的值的差异在误差范围内,则判断车辆性能未发生改变。同时按照3.1章节的人工智能算法,我们已经得到了一个车辆特性网络,我们可以将实际运营中的列车控制参数作为输入值输入到网络中,得到期望的列车的响应曲线,通过每个相同的输入值得到的期望响应值与实际列车运行过程中采集的响应值进行逐个执行周期比较,可以分析车辆特性的变化趋势。
如下图10是车辆特性监控流程,
• 动作选择:定义列车可以采取的动作(Action)空间。VOBC控制列车的牵引制动命令包括牵引、制动和惰行,对列车可以采取的动作可以为牵引(加速)、制动(减速)、惰行(保持当前速度)以及在这些动作下对级位信息加大,较小和维持当前值组成的动作集合。
• 奖励设计:需要设计一个奖励函数(Reward Function)。奖励函数根据列车的行为和目标来评估每个时间步的效果,鼓励有益的行为并惩罚不良的行为。在列车自动运行控制中,我们可以使用每个执行周期列车当前速度和目标速度的均方差来设计奖励函数。
• 学习过程:在每个控制周期中,VOBC根据当前状态选择一个动作,并将其应用于系统,动作的选择包含探索与利用两个方面,常用的方法是ε-greedy策略,即以ε的概率选择随机动作进行探索,以1-ε的概率选择基于当前策略的最佳动作进行利用;然后观察系统的下一个状态和获得的奖励,并使用强化学习算法来更新控制器的策略,常见的强化学习算法算法包括Q-learning、深度Q网络(DQN)、策略梯度方法等。这些算法通过不断与环境交互,学习选择最优的动作以最大化长期回报。这个过程不断迭代,直到控制器能够学习到最佳的策略。
• 策略应用:一旦训练完成,VOBC可以根据当前状态和学到的策略进行实时决策。它使用训练过程中学到的知识和经验,基于当前状态选择最优的动作,以实现高效、安全和可靠的列车运行。
通过应用强化学习于列车自动运行控制可以适应不同条件和变化的环境,但需要注意的是,在将强化学习应用于实际列车控制系统之前,必须进行充分的仿真和测试。强化学习是一种基于试错的参数调节算法,在实际环境中获取试错数据难度大,这个会影响到实际的部署应用,因此需要在模型和算法设计、数据、测试验证等方面进行充分的考量。
4 结语
本文主要介绍了人工智能技术的基本概念和原理,并探讨了其在列车自动运行控制中的应用。人工智能技术为实现智能化、高效化的列车自动运行控制带来了新的可能性,从技术原理上看,深度学习算法能够学习到系统的动态特性和控制规律,并根据实时数据进行自适应调整,实现精确的控制和系统特性监控;使用强化学习算法能够自主地感知环境、分析信息并做出决策,从而实现更高水平的自主控制。本文探讨了人工智能技术在列车自动运行中的潜在应用方向,然而,本文没有提到应用中的挑战和问题,如人工智能算法的健壮性,训练数据可靠性,人工智能算法需要的计算算力等方面,这些问题都需要进一步的研究和探索。
上海电气泰雷兹交通自动化系统有限公司车载软件主管
已完成
数据加载中