목차 Introduction Memory-augmented Autoencoder Memory module Memory-based Representation Attention for Memory Addressing Hard Shrinkage for Sparse Addressing T...
(Koch 2015 ICML) Siamese Neural Networks for One-shot Image Recognition
목차 Introduction Model Reference Introduction Few-shot learning과 constractive learning을 섞어놓은 듯한 논문이다. 내 관점에서는 Few-shot learning 느낌보다는 constractive learning에 좀 더 맞지 않나라고 보인다. 이 논문은 사전에 준비해둔...
(Lasse 2018 ICML) Impala; Scalable distributed deep-rl with importance weighted actor-learner architectures
목차 Introduction IMPALA V-trace Reference Introduction 강화학습에는 빠른 학습을 위해서 A3C와 같은 off-policy based distributed learning 방식을 사용한다. A3C는 worker들 간의 gradient을 공유하여 central parameter server를 ...
(Zong 2018 ICLR) Deep Autoencoding Gaussian Mixture Model For Unsupervised Anomaly Detection
목차 Introduction Deep Autoencoding Gaussian Mixture Model Experiment Reference Introduction anomaly detection은 high dimension data를 이용하여 low dimension으로 reduction을 하고 거기서 의미 있는 정보를 추출해야한...
(Hinton 2017 Nips) Dynamic Routing Between Capsules
목차 Introduction How the vector inputs and outputs of a capsule are computed Margin loss for digit existence CapsNet architecture Comments Reference Introduction 이 논문은 일반적인 CNN의 문제점을...
(Duan 2017 ICLR) RL2; Fast Reinforcement Learning Via Slow Reinforcement Learning
목차 Introduction Method Experiment Reference Introduction 일반적으로 사람들이 일을 배울 때 이전의 경험을 살려서 더 쉽게 일을 배울 수 있다. 하지만 RL에는 이러한 prior 정보가 부족해서 처음부터 새롭게 경험을 쌓아햐해서 많은 경험이 필요하다. 이러한 문제를 해결하기 위해서 이 논...
(Ofir 2018 Nips) Data-Efficient Hierarchical Reinforcement Learning
목차 Introduction Hierachy of Two Policies Parameterized Rewards Off-Policy Corrections for Higher-Level Training Experiment Reference Introduction 이 논문의 해결하고자 하는 문제는 세 가지 질문으로 압축할 수 ...
(Vezhnevets 2017 ICML) Feudal networks for hierarchical reinforcement learning
목차 Introduction FeUdal Networks Learning Experiment Reference Introduction Sparse reward에 대한 문제를 해결하기 위해 Hierarchical Reinforcement Learning 방법이 연구되고 있다. 이전에 적은 STRAW논문이 하나의 예시 논문이고 이...
(Fujimoto 2018 ICML) Addressing Function Approximation Error in Actor-Critic Methods
목차 Introduction Clipped Double Q-Learning for Actor-Critic Target Networks and Delayed Policy Updates Target Policy Smoothing Regularization Algorithm Reference Introduction 이 논문은 D...
(Haarnoja 2019 arxiv) Soft Actor-Critic Algorithms and Applications
목차 Introduction Automating Entropy Adjustment for Maximum Entropy RL Algorithm Reference Introduction 이전 논문인 SAC에서 문제인 고정된 temperature의 문제를 해결하는 부분이 추가된 SAC base논문이다. optimal temperatur...