来源:《电脑编程技巧与维护》2019年第04期 作者:陈晓军;康士伟;
选择字号

改进GA3C求解POMDP的深度强化学习网络模型

分享到: 分享到QQ空间

针对GA3C求解视频游戏中POMDP问题的特点,通过引入长短期记忆(Long-Short Term Memory, LSTM)保留游戏过程中多时间步的历史状态信息,与当前状态信息一同作为输入状态信息,该网络仅需对当前的1幅游戏截图进行预处理,网络输入状态空间的规模在每个训练时间步都得以缩小,只有原来传统网络的1/4,从而可以减小更新网络所需的计算量及存储要求,加快学习速度。同时LSTM有记忆机制,改进的网络模型将有利于加强求解POMDP问题的性能。(本文共计3页)       [继续阅读本文]

下载阅读本文     订阅本刊   
如何获取本文>>          如何获取本刊>> 

相关文章推荐

电脑编程技巧与维护杂志2019年第04期
电脑编程技巧与维护
主办:信息产业商会
出版:电脑编程技巧与维护杂志编辑部
出版周期:月刊
出版地:北京市

本期目录