video thumbnail

Applications of bandits and recommendation systems

Published on 2017-07-274057 Views

Nicolas Le Roux

DLSS & RLSS 2017 - Montreal

Related categories

Deep Learning Reinforcement Learning Unsupervised Learning

Presentation

RL in the industry00:00

Disclaimer00:16

Two components in RL00:54

Retargeting: how it works02:14

Details of the auction03:35

Finding a bidding strategy05:21

A/B testing06:15

RMSE vs. true revenue06:54

Implicit assumptions08:24

Quality of the proxy09:46

Is the input distribution the same?15:29

Simpson’s paradox16:28

Dealing with confounding variables20:03

Exploring exploration21:31

Misspecified model30:48

Counterfactual question31:03

Counterfactual question - 131:53

Offline vs. online evaluation33:29

From evaluation to optimization34:51

Benefits of policy evaluation36:45

Efficient policy optimization39:18

Other unanswered questions40:43

Executive summary41:45

Thank you!43:40