HKS作者

看到 引用 以下为完整的作者信息。

抽象

在多种应用中,待接收不完善观测bt365体育底层系统的状态后动态地做出决定的需求。部分可观测马尔科夫决策过程(pomdps)在广泛用于这种应用中。使用POMDP,然而,决策者必须在每个可能的状态和操作对下接入到核心国家转移概率和观察的可靠估计。通常,这主要是由于缺乏挑战性充裕的数据,特别是当不采取足够频繁在实践中的一些动作。 ESTA signicantly限制了现实世界中的设置的pomdps应用。在医疗保健,例如,医疗测试是假阳性通常受到错误和假阴性,因此,决策者有不完善的信息bt365体育患者的健康状态。此外,由于一些治疗方案没有被推荐或在过去的探索,数据不能用于可靠地估计所有需要转移概率bt365体育患者的健康状态。我们引入pomdps的延伸,称为稳健pomdps(rpomdps),这使得决策的动态在发生模糊的bt365体育转移概率。通过减少转换的一个概率模型的依赖,使强大的扩展ESTA做出决策,同时仍然不完善状态允许的意见。我们开发动态规划求解方程rpomdps,提供足够的统计和信息状态,讨论如何使他们的计算复杂度可以降低,并与不完善的私人监控连接到随机的零和游戏。

引用

rasouli,穆罕默德和索罗什saghafian。 “稳健的部分可观察马尔可夫决策过程。” HKS教师研究工作文件系列rwp18-027,2018年9月。