Home
JG_blog
Cancel

13. Actor-Critic

목차 Actor Critic Algorithm Reference Actor Critic REINFORCEMENT 알고리즘에서 \(G_t\) 대신 Q를 이용하는 방법이다. Q를 이용하기 때문에 actor와 critic 두 가지 네트워크를 이용한다. [\nabla_\theta J_\theta \simeq \...

(Lee 2019 arxiv) Tsallis reinforcement learning; A unified framework for maximum entropy reinforcement learning

목차 Problem definition Background Shannon-Gibbs entropy q-Expoential,q-Logarithm and Tsallis Entropy Proposition 1 Proposition 2 ...

12. (Sutton Nips 1999) Policy Gradient Methods for Reinforcement Learning with Function Approximation

목차 Policy Gradient Theorem Theorem 1 Policy Gradient with Approximation Theorem 2 Application to Deriving Algorithms and Advantages Reference Policy Gradient Theore...

11. Policy Gradient

목차 Policy Gradient REINFORCEMENT Algorithm Expectation form Reference Policy Gradient [J_{\theta}=\int_{\tau} G_0 P_{\theta}(\tau) \,d\tau] [\theta \gets \theta + \alpha \nabla_{\theta...

10. Policy based

목차 Problem definition Why? Policy-based Policy-based의 목표 Reference Problem definition 기존 Q learning은 value-based로 \(\epsilon\)-greedy 방법을 사용하였다. policy-based는 neural network로부터 mean, va...

9. Prioritized Experience Replay

목차 Problem definition Priority Importance Sampling Importance Sampling Weight Algorithm Reference Problem definition 기존 Experience replay buffer는 uniform하게 선택하여 우선 순위가 없다. 우선 순위를 매기...

5. (Iqbal 2019 ICML) Actor-Attention-Critic for Multi-Agent Reinforcement Learning

목차 Problem definition Background Multi-Actor-Attention-Critic(MAAC) Algorithm Experiment Review comment Reference Problem definition 이전 Multi-agent Reinforcement learning을 위해서 하는...

8. Dueling DQN

목차 Advantage function Dueling DQN Prior information Q value with prior information Algorithm Reference Advantage function Advantage function은 Q-V 수식으로 이루어져있다. 수식 자체로 보면 Q 값이 평균보다 얼마...

7. DDQN

목차 Problem definition Double DQN Proof Reference Problem definition DQn의 \(\gamma \operatorname{max} Q\)는 overestimate되어있다. Theorem 1에 의하면 \(V^*(s)\)를 target(optimal Q)라고 했을 시 \(V^*(s) -...

6. DQN

목차 13DQN 15DQN Reference 13DQN Atari 게임과 같이 state가 많은 곳에서 Q-table을 사용하기가 어렵기 때문에 DNN을 이용하여 해결한다. DNN의 output이 Q값이 나오고 Q의 1 step TD를 이용하여 network parameter를 update한다. 13 DQN의 contribution...