Python强化学习

描述:代码实现功能:结合已有的实验做一个通过强化学习实现路径规划选择以及目标分配。 已有工作:已经得到红方到蓝方的多条路径数据信息并保存在了path.txt文件中,以字典的形式。 要求: 1.将得到的这些路径作为备选路径,也就是作为强化学习的探索空间,然后基于已有的这些路径,通过强化学习进行筛选,得到每个红方到每个蓝方的一条最优路径,使用算法为PPO clip算法。 2.进行红蓝双方的目标分配,就是哪个红方打哪个蓝方方案是最优的。(红蓝双方并不是一对一要求,比如有6个红方4个蓝方,可以多个红方对一个蓝方,但要求每个蓝方都有红方去打)。 3.强化学习的奖励函数涉及到的相关约束,可以参考我发的这个run_main文件,将里面的约束条件规则用到其中,并作为奖励函数的设计条件。 4.代码的泛化性和可更改性,对于后续的修改可以较方便,比如奖励函数是一个函数模块,约束模型是一个模块,每一个模块分清楚,我要对其进行更新就只需要改这一部分。 5.训练过程要有展示,也就是每一次训练后的选择的路径图都能够保存在一个文件夹中,最后的结果也有所展示,包括最后最优的结果路径图展示,还有reward的变化曲线图。 6.每隔一段时间对生成的模型进行保存。
类型:远程
总价:技术报价
工期:15
申请订单
申请订单
意见反馈