A Non-Parametric Approach to Dynamic Programming

Published on 2012-01-254259 Views

Oliver B Kroemer

In this paper, we consider the problem of policy evaluation for continuous-state systems. We present a non-parametric approach to policy evaluation, which uses kernel density estimation to represent t

NIPS Conference 2011 - Granada

Related categories

Reinforcement Learning

Presentation

A Non-Parametric Approach to Dynamic Programming00:00

Motivation00:19

Outline - 100:51

Reinforcement Learning - 100:57

Reinforcement Learning - 201:09

Reinforcement Learning - 301:17

Reinforcement Learning - 401:28

Reinforcement Learning - 501:49

Reinforcement Learning - 601:53

Value Functions - 102:05

Value Functions - 202:16

Value Functions - 302:34

Value Functions - 402:48

Value Functions - 502:57

Value Functions - 603:27

Value Functions - 703:37

Value Functions - 803:53

Value Functions - 904:19

Reinforcement Learning Approaches - 104:32

Reinforcement Learning Approaches - 204:39

Reinforcement Learning Approaches - 304:55

Reinforcement Learning Approaches - 405:10

Reinforcement Learning Approaches - 505:37

Value Function Methods - 105:41

Value Function Methods - 205:51

Value Function Methods - 306:10

Value Function Methods - 406:16

Value Function Methods - 506:26

Value Function Methods - 606:33

Value Function Methods - 706:39

Reinforcement Learning Approaches06:54

Discrete State Dynamic Programming - 107:02

Discrete State Dynamic Programming - 207:43

Discrete State Dynamic Programming - 307:56

Linear-Quadratic Optimal Control - 108:01

Linear-Quadratic Optimal Control - 208:28

Linear-Quadratic Optimal Control - 308:37

Outline - 208:44

Non-Parametric Dynamic Programming - 109:17

Non-Parametric Dynamic Programming - 209:30

NPDP System Model - 109:53

NPDP System Model - 210:38

NPDP Form of Value Function - 111:01

NPDP Form of Value Function - 211:16

NPDP Form of Value Function - 311:32

NPDP Form of Value Function - 411:49

NPDP Policy Evaluation - 112:09

NPDP Policy Evaluation - 212:26

Algorithm Overview13:03

Outline - 313:58

Numerical Evaluation14:08

Value Function15:08

100 Samples Evaluation15:22

200 Samples Evaluation15:40

300 Samples Evaluation15:50

Discussion15:56

Conclusion16:34