Home
JG_blog
Cancel

4. (Du 2019 NIPS) LIIR; Learning Individual Intrinsic Reward in Multi-Agent Reinforcement learning

목차 Problem definition Background The Objective Algorithm Experiment Code review Review comment Reference Problem definition COMA와 QMIX와 같은 논문들은 critic의 구조에 집중하여 방법론을 적용하였으며 valu...

3. (Rashid 2018 ICML) Qmix; Monotonic value function factorisation for deep multi-agent reinforcement learning

목차 Problem definition Related work QMIX Representational Complexity Experiment Review comment Reference Problem definition Agent의 적절한 action을 위해서 centralised action-value functi...

5. On/off-policy

목차 Behavior policy and target policy On policy Off policy Off policy의 장점 Reference Behavior policy and target policy On policy와 off policy는 behavior policy와 target policy가 같은지 다른지에 따라 ...

4. Monte Carlo and Temporal Difference

목차 In previous posting Monte Carlo Temporal Difference MC와 TD 비교 Reference In previous posting 이전 posting에서 \(Q=Q^*\)라는 가정이 있다면 \(P(a_t \mid s_t)\)를 구하면 expected return을 최대화할 수 있다고 하였다...

3. Optimal Policy

목차 In previous posting Assumption Optimal policy Reference In previous posting 이전 posting에서 \(V(s_t)\)에 대해서 정의를 하고 이를 \(Q(s_t)\)로 표현하였다. \(V(s_t) = \int_{a_t} Q(s_t,a_t)P(a_t \mid s_t) \...

2. (Foerster 2017 AAAI) Counterfactual Multi-Agent Policy Gradients

목차 1. Main ideas 2. Notation 3. Indepedent Actor-Critic 4. Counterfactual Multi-Agent Policy Gradients 5. COMA Lemma 1 6. Algorithm 7. Reference Main ideas Centralised critic 사용 Counterfactua...

2. Bellman Equation

목차 Bellman Equation Reference Bellman Equation 벨만 방정식이란 어떤 상태의 값과 그 후에 이어지는 상태의 값들 사이의 관계를 표현한다. 그래서 state value function이 reward가 재귀적으로 사용되므로 \(V(s_t)\)를 \(V(S_{t+1})\)로 표현할 수 있다....

1. (Tan 1993 ICML) Multi-Agent Reinforcement Learning; Independent vs Cooperative Agents

목차 1. Introduction 2. 환경 3. Case1: sharing sensation 4. Case2: sharing policies or episodes 5. Case3: on joint tasks 6. Concolusion 7. Reference Introduction 사람들이 일을 하기 위해서는 분업을 하고 있고 곤충들 또한 그렇다. ...

1. Markov Decision Process

목차 시작하기 전에 Markov Process Markov Decision Process Markov chain 용어 정리 Goal Reference 시작하기 전에 Reinforcement Learning(RL)을 공부하기 위해서 여러 책, 자료를 찾아봤고 이해하는 데 가장 큰 도움이 됬던 강의는 유투브 혁펜하임이라는 채...

Goal

왜 블로그를 쓰는건가? 정리 논문을 읽고 공부한 것을 글로 정리하며 다시 리마인드를 목표로 하고 있다. 방지 지속적인 포스팅을 통하여 게을러지는 것을 방지하고자 한다. 방향성 강화학습 논문 및 구현을 중심으로 포스팅할 것이다. 목표 현재 많이 알려진 강화학습 논문 리딩 ...