왜 블로그를 쓰는건가?
- 정리
- 논문을 읽고 공부한 것을 글로 정리하며 다시 리마인드를 목표로 하고 있다.
- 방지
- 지속적인 포스팅을 통하여 게을러지는 것을 방지하고자 한다.
방향성
강화학습 논문 및 구현을 중심으로 포스팅할 것이다.
목표
현재 많이 알려진 강화학습 논문 리딩 및 구현을 하고 있다. 이를 정리한 후 새로운 강화학습 논문 리딩 후 포스팅을 할 예정이다.
단기 목표
일주일 동안 이론 정리 1, 논문 1개를 포스팅을 할 예정이며 이후 논문 1개 포스팅 및 논문 구현하는 과정 및 결과를 포스팅할 것이다.
장기 목표
- Multi-Agent RL
- 현재 value-based, policy-gradient 관련 논문 중 유명한 것들을 일고 구현을 하였다. 그리고 현재 Multi-Agent에 관심을 가지고 있어서 이에 관한 논문을 읽고 구현해보는 것을 목표로 하고 있다. Multi-Agent의 가장 큰 목표는 Starcraft의 API를 이용해 테스트 해보는 것이다.
- Meta Learning
- 가상 환경 구현
- Gazebo, unity ML-agent 등을 이용한 가상 환경을 구성해보고 학습을 해보는 것
- 분산 강화학습
- Hierarchy RL
- Guided RL