목차
Advanced Actor Critic
위 식에서 Q 대신 action의 함수가 아닌
즉,
V[X] = V[X-a] but V[X[Q]]
V[X[Q-V]]Q-V는 optimal은 아니나 variance가 낮아진다.
-
Q,V actor 3개의 network를 사용해야하므로 Q를 V로 표현
E[X] -a = E[X-a] (a= 상수)
marginalization으로 인하여
Algorithm
Initialize
Collect N samples ( 1 sample: {
})Actor update:
Critic update:
Clear Batch
repeat 1 ~ 4