2024年6月11日,课题组同学举行了线下组会,指导老师唐克双教授、朱宏特聘研究员,以及课题组所有学生参与了本次例会。本次组会主要内容为沈玥、冯嘉龙同学研究进展汇报。
一、沈玥研究进展汇报
沈玥同学从研究背景与文献综述、多模式交通分配研究框架、难题以及后续计划三个方面介绍了其研究《基于多智能体的多模式交通分配研究框架》的最新进展,重点讨论了多智能体强化学习在交通分配中的研究以及在多模式交通分配中的应用。
汇报内容分为三个部分:第一部分阐述了研究背景及相关研究综述,总结了多模式交通分配的研究现状以及强化学习在交通分配中的应用,得到了结论:多智能体强化学习在多模式交通分配中具备应用潜力。第二部分阐述了多智能体在多模式交通分配研究中的研究框架,重点论述了强化学习中各个要素的定义及计算方法,并引入了多模式可行超路径的概念。第三部分总结了模型及算法中现存的问题以及解决思路。问题主要包括以下几点:1)多模式网络的构建问题以及数据获取问题。2)多智能体强化学习的建模细节。
唐克双老师、朱宏老师与其他课题组成员就沈玥同学研究中的相关问题进行了深入探讨,为其指明了研究后续的重点工作以及可能的研究方向:1)组内具有多模式交通网络的数据基础;2)多智能体强化学习客观上难以收敛,需要精简研究场景以及智能体交互过程,具体建模细节后续还需要精细讨论。
二、冯嘉龙研究进展汇报
冯嘉龙同学从研究背景、相关工作、方法、仿真实验四个方面介绍了其研究《基于深度强化学习的完全分布式自适应干线协调信号控制》研究的最新进展,重点讨论了所提出的所提出能够使干线多交叉口协调智能体的学习过程稳定的强化学习方法。
研究背景部分介绍了多交叉口自适应交通信号控制系统在多智能体学习的环境下面临的非稳态环境问题。第二部分综述信号实时控制相关的研究,分析出完全分布式自适应控制当前研究所存在的空白。第三部分介绍所提出方法的整体框架和局部细节。第四部分展示并分析了使用真实数据和生成数据进行仿真实验的结果。
唐克双老师和朱宏老师针对研究方法和实验设置提出了问题,包括:1)方法论的具体内容应该给出给出更详细的介绍和更深入的解释;2)深度强化学习的奖励函数的设置应该进一步说明;3)相比传统基于带宽的方法,深度强化学习方法可能在支路流量显著时更有优势,应该补充相应场景的实验;4)应该进一步确定研究在项目中的定位。两位老师与课题组同学对相关问题进行了深入探讨,并就后续的研究和改进方向提出了建议。