Optimistic Initialization and Greediness Lead to Polynomial Time Learning in Factored MDPs

Published on 2009-08-263082 Views

Istvan Szita

In this paper we propose an algorithm for polynomial-time reinforcement learning in factored Markov decision processes (FMDPs). The factored optimistic initial model (FOIM) algorithm, maintains an emp

Sessions

Related categories

Optimistic Initialization and Greediness Lead to Polynomial Time Learning in Factored MDPs

Istvan Szita

Sessions

Related categories

Presentation