인공지능/강화학습

    [강화학습] A2C

    [강화학습] A2C

    이번에 중간고사를 지나면서 시간이 상당히 오래되었지만 A2C에 대해 리뷰하려고 합니다. 먼저 앞에서 배웠던 DQN과 Policy gradient의 차이를 먼저 짚고 넘어가면 좋을거 같네요. 강화학습에서 최종 목표는 항상 Agent가 Reward를 최대한 많이 받도록 하는 것입니다. DQN은 여기서 Q-function, 즉, 행동가치함수를 추정해서 이를 통해 최대해 행동가치를 가질 수 있는 행동을 선택하도록 한다. 하지만 만약 우리의 action이 continuous하다면? 즉, 선택지가 너무 많아서 이를 가치함수의 가짓수로 나타내기 힘들다면 어떻게 해야할까? 물론 DQN과 AC계열의 차이는 이 한가지 문장으로 표현하기 어렵겠지만 제가 느끼기로는 이게 AC로 진입하게 되는 진입문을 잘 표현한 것 같습니다...

    강화학습 개념

    강화학습 개념

    1. 강화학습이란? 머신러닝에서는 학습하는 방식으로 크게 4가지로 나누게 됩니다. 지도학습, 비지도학습, 준지도학습, 강화학습 강화학습은 학습하는 방식이 다른 머신러닝과 달라 다른 분류 기준에 들어가게 됩니다. 가장 크게 차이나는 거는 데이터가 필요없다는 겁니다. 필요한 강화학습 방식도 있긴 합니다만(ex. GAIL, Model based등등...) 개념파트니 이 부분은 넘어가도록 하죠. 나중에 기회가 된다면 해당 부분도 포스팅을 해보도록 하겠습니다. 제가 강화학습을 공부 했을 때는 가장 어려웠던 부분은 모델링을 예상하고 공부를 시작했는데 알고리즘의 성향이 강해서 이에 대해 적응하기가 조금 어려웠습니다. 계속 지도학습의 입장에서 이해하려고 했던 탓에 처음에 받아들이기가 어려웠죠. 앞으로 내용은 지도학습을..