Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic (2016)

First Author: Gu Shixiang

Attributed to: Machine Learning for Hearing Aids: Intelligent Processing and Fitting funded by EPSRC

No abstract provided

Type: Journal Article/Review

Parent Publication: arXiv e-prints