Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic (2016)

First Author: Gu Shixiang

Attributed to: Unifying audio signal processing and machine learning: a fundamental framework for machine hearing funded by EPSRC

No abstract provided

Type: Journal Article/Review

Parent Publication: arXiv e-prints