书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 高中教育 > 深度强化学习型混合动力汽车能量管理策略增强更新方法.pdf

深度强化学习型混合动力汽车能量管理策略增强更新方法.pdf

文档编号：18809636
上传时间：2023-11-26
格式：PDF
页数：15
大小：1.18MB

《深度强化学习型混合动力汽车能量管理策略增强更新方法.pdf》由会员分享，可在线阅读，更多相关《深度强化学习型混合动力汽车能量管理策略增强更新方法.pdf（15页珍藏版）》请在冰点文库上搜索。

深度强化学习型混合动力汽车能量管理策略增强更新方法.pdf

（19）国家知识产权局（12）发明专利申请（10）申请公布号（43）申请公布日（21）申请号202310378883.9（22）申请日2023.04.10（71）申请人重庆大学地址400044重庆市沙坪坝区沙坪坝正街174号（72）发明人唐小林陈佳信杨为胡晓松杨亚联谢翌李佳承（74）专利代理机构北京同恒源知识产权代理有限公司11275专利代理师方钟苑（51）Int.Cl.B60W40/00（2006.01）B60W50/00（2006.01）B60W20/00（2016.01）G06F30/27（2020.01）G06N3/04（2023.01）G06N3/092（2023.01）（54）发明名称深度强化学习型混合动力汽车能量管理策略增强更新方法（57）摘要本发明涉及一种深度强化学习型混合动力汽车能量管理策略增强更新方法，属于混合动力汽车技术领域。

该方法包括：

S1：

获取不同类型的车辆历史速度数据；S2：

将获取数据分别划分为初始、强化和终极阶段后进行合并，生成相应阶段的速度状态转移特征矩阵；S3：

根据速度状态转移特征矩阵生成基于态序的特征驾驶工况，用于对深度强化学习型混合动力汽车能量管理策略训练；S4：

定义策略训练所需的变量空间和奖励函数，并且以Matlab的.m文件为数据接口，实现联合仿真训练；S5：

完成深度强化学习型混合动力汽车能量管理策略的在线增强更新式迭代训练过程，训练结束后下载最新策略并加载到混合动力系统模型中进行后续测试。

权利要求书2页说明书7页附图5页CN116424332A2023.07.14CN116424332A1.一种深度强化学习型混合动力汽车能量管理策略增强更新方法，其特征在于，该方法具体包括以下步骤：

S1：

通过多样化的驾驶信息来源获取不同类型的车辆历史速度数据；S2：

将获取的每种车辆历史速度数据分别划分为三个阶段后进行合并，生成相应阶段下的速度状态转移特征矩阵；S3：

根据车辆历史速度数据所生成的速度状态转移特征矩阵生成基于态序的特征驾驶工况，用于后续对深度强化学习型混合动力汽车能量管理策略的训练；S4：

面向深度强化学习型混合动力汽车能量管理策略，定义训练过程所需的状态空间S、动作空间A以及奖励函数R，并且以Matlab的.m文件为数据接口，实现Python环境下深度强化学习型智能体与Simulink环境下并联式混合动力系统的联合仿真训练；S5：

基于云服务器完成深度强化学习型混合动力汽车能量管理策略的在线增强更新式迭代训练过程，在训练结束后，下载最新型混合动力汽车能量管理策略，并加载到混合动力系统模型中进行后续测试。

2.根据权利要求1所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S1中，获取的不同类型车辆历史速度数据包括：

（1）基于虚拟仿真的自动驾驶数据，来源CARLA：

以官方车辆与地图为环境基础，通过自动驾驶功能控制车辆在区域内行驶，此时目标车辆所处环境包含周围车辆、行人以及交通管理设备，进而获取表征自动驾驶控制特征的仿真速度数据；

（2）面向真实人类驾驶员的车速数据，来源DBNet：

下载网上发布以真实驾驶员在城区范围行驶的数据集，获取能够表征人类驾驶特征的真实速度数据；（3）基于竞速类电子游戏的车速数据，来源GranTurismo：

通过在PlayStation平台运行GranTurismoSport真实驾驶模拟器，根据赛道、车辆以及游玩者驾驶风格的不同，获取充分表征车辆在竞速环境下的仿真速度数据；（4）专门用于测试车辆性能的标准工况：

选择在车辆测试领域常用的几种标准速度工况进行合并，获取由官方发布的真实速度数据。

3.根据权利要求2所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S2中，生成不同阶段下的速度状态转移特征矩阵，具体包括以下步骤：

S21：

基于四种类型的车辆历史速度数据，以时间为标准划分为三个阶段，即初始阶段、强化阶段和终极阶段；S22：

将四类车辆历史速度数据根据阶段的不同进行合并，组成一条完整的速度工况；S23：

分别构建对应于三个阶段的速度转移特征矩阵，其中所包含的四类车速数据能够反应更加全面的驾驶特征。

4.根据权利要求3所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S3中，利用生成的基于态序的特征工况对深度强化学习型混合动力汽车能量管理策略进行训练，具体包括以下步骤：

S31：

以初始阶段的速度状态转移特征矩阵，车辆历史速度数据已覆盖了状态转移矩阵的部分范围，进而对已知范围求取包络曲线，该包络曲线的涉及区域能够体现车辆的历史驾驶特征；S32：

基于包络区域获取已知驾驶特征范围的边界状态转移特征点，同时在包络区域内权利要求书1/2页2CN116424332A2随机生成多个离散状态转移特征点；S33：

以加速度变化和车速变化情况为指标，将包络区域的边界点与内部随机点进行连接，共同构建一条基于速度转移特征点所生成的速度轨迹，也就是态序性驾驶工况；S34：

当车辆进入到新的驾驶环境后，定期或者不定期地通过强化阶段产生的扩大型速度转移特征包络区域生成强化型态序驾驶工况。

5.根据权利要求1所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S4中，定义训练过程所需的变量空间和奖励函数，具体包括：

将训练过程中所涉及的状态空间S、动作空间A以及奖励函数R定义如下：

S（Twheel,SOC,Vocbatt,Geartrans,mot,Velcar,Tempenv）AThrottle0,0.1,0.2,.,0.9,1其中，Twheel是车辆处需求转矩，SOC是电池电荷状态，Vocbatt是电池开路电压，Geartrans是变速器档位，mot是电机转速，Velcar是车辆纵向速度，Tempenv是环境温度；Throttle是节气门，离散化为11个动作点0,0.1,0.2,0.9,1；、和是权重系数，Teng是发动机转矩，neng是发动机转速，是发动机瞬时油耗，BSFC（）是有效燃油消耗率，SOCtarget是目标电池电荷状态。

6.根据权利要求5所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S4中，联合仿真设置，具体包括：

在Matlab环境下分别编写以打开模型、传递数据、继续运行模型以及关闭模型为目的的四个.m文件作为联合仿真数据交互的函数文件；由此，将Python环境下深度强化学习型智能体的控制命令DRL_Action传输给混合动力系统，而将Simulink环境下执行控制命令后的混合动力系统状态参数传输给深度强化学习型智能体；其中，状态参数中具体包括制动燃油消耗率BSFC、瞬时燃油消耗量FuelFlw、电池电荷状态BattSoc、电池电压BattV、变速器档位TransGear、纵向行驶速度xdot、电机转速MotSpd、电机转矩MotTrq、发动机转速EngSpd、发动机转矩EngTrq、环境温度Temp、车轮处需求转矩WhlTrq和仿真时间SimuTime。

7.根据权利要求1所述的混合动力汽车能量管理策略增强更新方法，其特征在于，步骤S5中，当总累计奖励函数处于稳定的最大化收敛状态后，训练结束。

权利要求书2/2页3CN116424332A3深度强化学习型混合动力汽车能量管理策略增强更新方法技术领域0001本发明属于混合动力汽车技术领域，涉及一种基于态序工况的深度强化学习型混合动力汽车能量管理策略增强更新方法。

背景技术0002全球汽车工业迎来了新的发展机遇，新能源、智能化等技术给汽车的动力系统及其控制带来了巨大变革。

新能源汽车已被视为实现能源转型、缓解能源危机的一项重要举措。

目前主流和新兴汽车制造商纷纷推出相应的纯电动汽车、混合动力汽车和燃料电池汽车。

纯电动汽车可以通过低廉的充电价格、环保的驾驶方式以及满足人们在城市地区出行的需求吸引消费者的注意力。

然而，公众还是更加关注续航里程、充电设施以及安全性的保障程度。

纯电动汽车虽然可以取代传统燃油车成为未来的主要交通工具，但关键技术有待取得进一步提升。

燃料电池汽车利用氢气替代汽油进行发电并且驱动电机，在中、美、欧等地被视为未来商用车的主要动力系统。

目前，混合动力汽车技术水平最为成熟，能够满足续驶里程、补能便捷、节能减排等要求，是一款理想的过渡产品，并且将长期占据新能源汽车市场的销售份额。

0003对于混合动力汽车的技术路线，初期完成动力总成选型和参数匹配，需要根据混合动力汽车的使用环境和客户需求来确定解决方案。

能量管理策略则是混合动力系统实现节能减排、提高燃油经济性的核心技术之一。

其主要原理就是在满足动力系统需求与约束的同时，通过在多个动力源之间合理分配功率流，从而达到预期的优化目标。

此外，一些研究也开始考虑影响动力系统运行的其他重要因素，如电池老化、电机发热等，使得能量管理策略成为一种逐步考虑整车运行环境的控制策略。

一般来说，设计一套可靠的能量管理策略可以利用研究人员或者专家经验来形成基于规则的能量管理策略，同样也可以采用优化算法，如动态规划、庞特里亚金最小值原则、等效燃油消耗最小化策略以及模型预测控制等获得基于优化的能量管理策略。

但是，以上两类能量管理策略在适应性、计算效率、优化效果等方面都存在缺陷。

发明内容0004有鉴于此，本发明的目的在于针对基于深度强化学习的混合动力汽车能量管理策略，提出了一种更加适配强化学习算法原理的全新训练理念，并且采用了Python环境下智能体模型与Simulink环境下混合动力系统模型的联合仿真形式，提出了一种基于态序性工况（而非时序性速度工况）的深度强化学习型控制策略增强更新方法，使最终训练得到的控制策略具有更加完美的适用效果。

0005为达到上述目的，本发明提供如下技术方案：

0006一种深度强化学习型混合动力汽车能量管理策略增强更新方法，具体包括以下步骤：

0007S1：

通过多样化的驾驶信息来源获取不同类型的车辆历史速度数据，主要涵盖自说明书1/7页4CN116424332A4动驾驶仿真软件（CARLA）仿真数据、真实驾驶数据集DBNet、竞速类电子游戏GranTurismo以及专门用于测试车辆性能的标准工况（HWEFT、US06、WLTC等）数据；0008S2：

将获取的每种车辆历史速度数据分别划分为三个阶段（初始阶段、强化阶段和终极阶段）后进行合并，生成相应阶段下的速度状态转移特征矩阵；0009S3：

根据车辆历史速度数据所生成的速度状态转移特征矩阵生成基于态序的特征驾驶工况，用于后续对深度强化学习型混合动力汽车能量管理策略的训练；0010S4：

面向深度强化学习型混合动力汽车能量管理策略，定义训练过程所需的状态空间S、动作空间A以及奖励函数R，并且以Matlab的.m文件为数据接口，实现Python环境下深度强化学习型智能体与Simulink环境下并联式混合动力系统的联合仿真训练；0011S5：

基于云服务器（如腾讯云虚拟机）完成深度强化学习型混合动力汽车能量管理策略的在线增强更新式迭代训练过程，在训练结束后，下载最新型混合动力汽车能量管理策略，并加载到混合动力系统模型中进行后续测试。

0012进一步，步骤S1中，获取的不同类型车辆历史速度数据包括：

0013

（1）基于虚拟仿真的自动驾驶数据，来源CARLA（自动驾驶研究模拟器）：

以官方车辆与地图为环境基础，通过自动驾驶功能控制车辆在区域内行驶，此时目标车辆所处环境包含周围车辆、行人以及交通管理设备，进而获取表征自动驾驶控制特征的仿真速度数据；0014

（2）面向真实人类驾驶员的车速数据，来源DBNet：

下载网上（上海交通大学）发布以真实驾驶员在城区范围行驶的数据集，获取能够表征人类驾驶特征的真实速度数据；0015（3）基于竞速类电子游戏的车速数据，来源GranTurismo：

通过在PlayStation平台运行GranTurismoSport真实驾驶模拟器，根据赛道、车辆以及游玩者驾驶风格的不同，获取充分表征车辆在竞速环境下的仿真速度数据；0016（4）专门用于测试车辆性能的标准工况：

选择在车辆测试领域常用的几种标准速度工况进行合并，包括HWEFT、US06、WLTC等，获取由官方发布的真实速度数据。

0017进一步，步骤S2中，生成不同阶段下的速度状态转移特征矩阵，具体包括以下步骤：

0018S21：

基于四种类型的车辆历史速度数据，以时间为标准划分为三个阶段，即初始阶段、强化阶段和终极阶段；随着时间推移，当驾驶员进入陌生驾驶环境或者在已知驾驶环境反复运行多次后，会产生驾驶习惯与驾驶风格的改变，依次作为划分阶段的主要依据；0019S22：

将四类车辆历史速度数据根据阶段的不同进行合并，组成一条完整的速度工况；0020S23：

分别构建对应于三个阶段（初始阶段、强化阶段、终极阶段）的速度转移特征矩阵，其中所包含的四类车速数据能够反应更加全面的驾驶特征。

0021进一步，步骤S3中，利用生成的基于态序的特征工况对深度强化学习型混合动力汽车能量管理策略进行训练，具体包括以下步骤：

0022S31：

以初始阶段的速度状态转移特征矩阵，车辆历史速度数据已覆盖了状态转移矩阵的部分范围，进而对该已知范围求取包络曲线，该包络曲线的涉及区域能够体现车辆的历史驾驶特征，也就是目前已经经历过的驾驶行为，能够判断驾驶员是否具有高速行驶、急加速急减速等习惯；0023S32：

基于该包络区域获取已知驾驶特征范围的边界状态转移特征点，同时在该包说明书2/7页5CN116424332A5络区域内随机生成多个离散状态转移特征点；0024S33：

以加速度变化和车速变化情况为指标，将包络区域的边界点与内部随机点进行连接，共同构建一条基于速度转移特征点所生成的速度轨迹，也就是态序性驾驶工况；0025S34：

当车辆进入到新的驾驶环境后，可能产生新的驾驶习惯，也就是新的速度转移特征，由此将拓展之前的包络区域。

因此，定期或者不定期地通过强化阶段产生的扩大型速度转移特征包络区域生成强化型态序驾驶工况，而理论上存在的最终阶段所生成的态序驾驶工况将包括车辆所有的速度转移特征。

0026进一步，步骤S4中，定义训练过程所需的变量空间和奖励函数，具体包括：

为保证能够与MathWork官方发布基于等效燃油消耗最小策略的混合动力汽车能量管理策略具有公平的设置条件，通过以优化混合动力汽车燃油经济性为主要目标，利用适用于离散控制任务的深度值网络为主要控制算法，现将训练过程中所涉及的状态空间S、动作空间A以及奖励函数R定义如下：

0027S（Twheel,SOC,Vocbatt,Geartrans,mot,Velcar,Tempenv）0028AThrottle0,0.1,0.2,.,0.9,100290030其中，Twheel是车辆处需求转矩，SOC是电池电荷状态，Vocbatt是电池开路电压，Geartrans是变速器档位，mot是电机转速，Velcar是车辆纵向速度，Tempenv是环境温度，定义为定值313K；Throttle是节气门，离散化为11个动作点0,0.1,0.2,0.9,1；、和是权重系数，Teng是发动机转矩，neng是发动机转速，是发动机瞬时油耗，BSFC（）是有效燃油消耗率，SOCtarget是目标电池电荷状态。

0031进一步，步骤S4中，联合仿真设置，具体包括：

在Matlab环境下分别编写以打开模型、传递数据、继续运行模型以及关闭模型为目的的四个.m文件作为联合仿真数据交互的函数文件；由此，将Python环境下深度强化学习型智能体的控制命令DRL_Action传输给混合动力系统，而将Simulink环境下执行控制命令后的混合动力系统状态参数传输给深度强化学习型智能体；其中，状态参数中具体包括制动燃油消耗率BSFC、瞬时燃油消耗量FuelFlw、电池电荷状态BattSoc、电池电压BattV、变速器档位TransGear、纵向行驶速度xdot、电机转速MotSpd、电机转矩MotTrq、发动机转速EngSpd、发动机转矩EngTrq、环境温度Temp、车轮处需求转矩WhlTrq和仿真时间SimuTime。

0032进一步，步骤S5中，当总累计奖励函数处于稳定的最大化收敛状态后，训练结束。

0033本发明的有益效果在于：

本发明针对混合动力汽车及相应的深度强化学习型能量管理策略，采用一种更加适配于强化学习算法原理的全新训练理念，通过以态序性速度工况而非时序性速度工况为数据基础，使最终训练得到的控制策略具有更加完美的适用效果。

0034本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。

本发明的目标和其他优点可以通过下面的说明书来实现和获得。

说明书3/7页6CN116424332A6附图说明0035为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

0036图1是本发明混合动力汽车能量管理策略增强更新方法的整体流程图；0037图2是本发明混合动力汽车能量管理策略增强更新方法的整体框架图；0038图3是多样化车辆历史速度数据，其中，（a）为基于CARLA的驾驶数据，（b）为基于DBNet的驾驶数据，（c）为基于GranTurismo的驾驶数据，（d）为基于标准工况的驾驶数据（HWEFT、US06、WLTC）；0039图4是四类车辆历史速度数据共同构建的速度转移特征矩阵；0040图5是深度值网络算法结构图；0041图6是联合仿真数据接口示意图。

具体实施方式0042以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。

本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

0043其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

0044本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

0045请参阅图1图6，本发明提供一种基于态序工况的深度强化学习型混合动力汽车能量管理策略增强更新方法，流程如图1所示，框架如图2所示。

该方法具体包括以下步骤：

0046S1：

通过多样化的驾驶信息来源获取不同类型的车辆历史速度数据，主要涵盖自动驾驶仿真软件（CARLA）仿真数据、真实驾驶数据集DBNet、竞速类电子游戏GranTurismo以及专门用于测试车辆性能的标准工况（HWEFT、US06、WLTC等）；0047

（1）基于虚拟仿真的自动驾驶数据来源CARLA：

以官方车辆与地图为环境基础，通过自动驾驶功能控制车辆在区域内行驶，此时目标车辆所处环境包含周围车辆、行人以及交通管理设备，进而获取表征自动驾驶控制特征的仿真速度数据，如图3（a）所示；0048

（2）面向真实人类驾驶员的车速数据来源DBNet：

下载上海交通大学发布以真实驾驶员在城区范围行驶的数据集，获取能够表征人类驾驶特征的真实速度数据，如图3（b）所说明书4/7页7CN116424332A7示；0049（3）基于竞速类电子游戏的车速数据来源GranTurismo：

通过在PlayStation平台运行GranTurismoSport真实驾驶模拟器，根据赛道、车辆以及游玩者驾驶风格的不同，获取充分表征车辆在竞速环境下的仿真速度数据，如图3（c）所示；0050（4）专门用于测试车辆性能的标准工况：

选择在测试领域常用的几种标准速度工况进行合并，包括HWEFT、US06、WLTC等，获取由官方发布的真实速度数据，如图3（d）所示。

0051S2：

将获取的每种车辆历史速度数据分别划分为三个阶段（初始阶段、强化阶段、终极阶段）后进行合并，共同构建相应的速度状态转移特征矩阵；具体包括以下步骤：

0052S21：

基于四种类型的车辆历史速度信息，以时间为标准划分为三个阶段，即初始阶段、强化阶段、终极阶段。

随着时间推移，当驾驶员进入陌生驾驶环境或者在已知驾驶环境反复运行多次后，会产生驾驶习惯与驾驶风格的改变，依次作为划分阶段的主要依据；0053S22：

将四类车辆历史速度信息根据阶段的不同进行合并，组成一条完整的速度工况；0054S23：

分别构建对应于三个阶段（初始阶段、强化阶段、终极阶段）的速度转移特征矩阵，其中所包含的四类车速信息能够反应更加全面的驾驶特征，如图4所示。

0055S3：

根据车辆历史速度数据所生成的速度状态转移特征矩阵生成基于态序的特征驾驶工况，用于后续对深度强化学习型混合动力汽车能量管理策略的训练；具体包括以下步骤：

0056S31：

以初始阶段的速度转移特征矩阵，历史车速数据已覆盖了状态转移矩阵的部分范围，进而对该已知范围求取包络曲线，该曲线的涉及区域能够体现车辆的历史驾驶特征，也就是目前已经经历过的驾驶行为，能够判断驾驶员是否具有高速行驶、急加速急减速等习惯；0057S32：

基于该包络区域获取已知驾驶特征范围的边界状态转移特征点，同时在该包络区域内随机生成多个离散状态转移特征点；0058S33：

以加速度变化、车速变化情况为指标，将包络区域的边界点与内部随机点进行连接，共同构建一条基于速度转移特征点所生成的速度轨迹，也就是态序性驾驶工况；0059S34：

当车辆进入到新的驾驶环境后，可能产生新的驾驶习惯，也就是新的速度转移特征，由此将拓展之前的包络区域。

因此，定期或者不定期地通过强化阶段产生的扩大型速度转移特征包络区域生成强化型态序驾驶工况，而理论上存在的最终阶段所生成的态序驾驶工况将包括车辆所有的速度转移特征。

0060S4：

面向深度强化学习型混合动力汽车能量管理策略定义训练过程所需的状态空间S、动作空间A、奖励函数R，并且设置面向联合仿真的接口环境与交互方案；0061为保证能够与MathWork官方发布基于等效燃油消耗最小策略（ECMS）的混合动力汽车能量管理策略具有公平的设置条件，通过以优化混合动力汽车燃油经济性为主要目标，利用适用于离散控制任务的深度值网络为主要控制算法，如图5所示，现将训练过程中所涉及的状态空间S、动作空间A以及奖励函数R定义如下：

0062S（Twheel,SOC,Vocbatt,Geartrans,mot,Velcar,Tempenv）0063AThrottle0,0.1,0.2,.,0.9,1说明书5/7页8CN116424332A800640065其中，Twheel是车辆处需求转矩，SOC是电池电荷状态，Vocbatt是电池开路电压，Geartrans是变速器档位，mot是电机转速，Velcar是车辆纵向速度，Tempenv是环境温度，定义为定值313K；Throttle是节气门，离散化为11个动作点0,0.1,0.2,0.9,1；、和是权重系数，Teng是发动机转矩，neng是发动机转速，是发动机瞬时油耗，BSFC（）是有效燃油消耗率，SOCtarget是目标电池电荷状态。

0066随后，在Matlab环境下分别编写以打开模型、传递数据、继续运行模型以及关闭模型为目的的四个.m文件作为联合仿真数据交互的函数文件。

由此，如图6所示，将Python环境下深度强化学习型智能体的控制命令DRL_Action传输给混合动力系统，而将Simulink环境下执行控制命令后的混合动力系统状态参数传输给深度强化学习型智能体。

其中，状态参数中包