Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC (2017)

First Author: G, X

Attributed to: Autonomous behaviour and learning in an uncertain world funded by EPSRC

No abstract provided

Type: Conference/Paper/Proceeding/Abstract