강화학습
[강화학습] PPO(Proximal Policy Optimization) 논문 정리
아오 티스토리 LaTEX 진짜 못해먹겠네선행 TRPO 논문 리뷰는 아래 링크 참고. 보고 오면 좀 더 알아보기 쉬울 것으로 예상됨(일단 저는 그랬습니다) [강화학습] TRPO(Trust Region Policy Optimization) 논문 정리PPO를 공부하려고 했는데 이 논문이 선행되어야한다는 이야기를 들어서 가볍게 논문을 읽어봤다. 아직 강화학습 논문 읽는 건 익숙하지 않아서 시간이 꽤 걸렸다. 수학적 개념이 적어서 최대한dnai-deny.tistory.com PPO(Proximal Policy Optimization)On-policy, actor-critic 알고리즘Value function 없이 확률적인 policy를 곧장 학습함policy update를 포착하는 novel objective f..
[강화학습] TRPO(Trust Region Policy Optimization) 논문 정리
PPO를 공부하려고 했는데 이 논문이 선행되어야한다는 이야기를 들어서 가볍게 논문을 읽어봤다. 아직 강화학습 논문 읽는 건 익숙하지 않아서 시간이 꽤 걸렸다. 수학적 개념이 적어서 최대한 꼼꼼히 이해할 수 있게 정리해봤는데, 다른 사람들에게도 도움이 되었으면 해서 포스팅한다.[https://arxiv.org/abs/1502.05477]TRPO(Trust Region Policy Optimization)url: https://arxiv.org/abs/1502.05477title: "Trust Region Policy Optimization"description: "We describe an iterative procedure for optimizing policies, with guaranteed mono..
[라이트 딥러닝] 1. 넓은 시각으로 보는 머신러닝 개괄
2022년 11월 Chat GPT가 대중적으로 굉장히 넓게 알려지면서 서서히 붐이 오고 있던 인공지능 시장이 그야말로 전성기를 맞이했다는 생각이 드는 요즘입니다. LLM(Large Language Model) 뿐만 아니라 CV(Computer Vision) 분야에서는 저작권 문제가 대두되고 있기는 하지만 사진과 그림체를 학습시켜 그림체를 입은 새로운 그림을 만들어내고, 음성합성 분야에서는 인공지능을 활용해 TTS가 노래를 부르게 하기도 합니다. 눈에 보이는 서비스를 제공하는 위와 같은 분야를 제외하고도 인공지능을 통한 이상탐지 솔루션, 강화학습을 활용한 게임 봇(Bot) 생성 등 아직 저도 완벽히 쓰임을 다 알지 못하는 무궁무진한 분야에서 딥러닝이 사용되고 있습니다. 이번 포스팅에서는 AI를 공부하기로 ..
[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기
※ 아래 링크의 내용을 공부하며 한국어로 정리한 내용입니다. Reinforcement Learning: Dealing with Sparse Reward Environments Reinforcement Learning (RL) is a method of machine learning in which an agent learns a strategy through interactions with its environment… medium.com 1. Sparse Reward Sparse Reward(희박한 보상) : Agent가 목표 상황에 가까워졌을 때만 긍정 보상을 받는 경우 현재 실험 환경 세팅과 같음 Curiosity-Driven method agent가 관심사 밖의 환경에도 동기를 받도록 Curric..
[강화학습] DDPG(Deep Deterministic Policy Gradient)
DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다. 기존 DQN 방식의 insight들에 batch normalization replay buffer target Q network Actor-critic 파라미터화 된 actor function을 가짐 actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정 policy gradient 방식으로 학습 여기에서 J가 Objective Function(목표함수) actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter..
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지
인터넷을 다 뒤져봤는데 강화학습을 gym에서 제공하는 게임 agent 사용해서 하는 예제는 육천만 개고 커스텀해서 학습을 하는 예제는 단 한 개 있었다. 이제 막 공부를 시작하는 사람들에게 도움이 되었으면 하는 마음으로 간단하게 써보고자 한다. 1. Gym의 Env 구조 살펴보기 꼭 그래야하는 것은 아니지만(밑바닥부터 구현하는 방법도 있긴 하다) 어쨌든 gym 라이브러리의 environment 구조를 기반으로 해서 구현해볼 것이다. !pip install gym gym 라이브러리의 env 구조는 대충 아래와 같다. site-packages/gym/core.py 에서 직접 볼 수 있다. class Env(Generic[ObsType, ActType]):m.Generator] = None """ The ma..
[라이트 머신러닝] Session 1. 너어얿은 시각으로 보는 머신러닝의 기초
[라이트 딥러닝] 1. ML Fundamental 2022년 11월 Chat GPT가 대중적으로 굉장히 넓게 알려지면서 서서히 붐이 오고 있던 인공지능 시장이 그야말로 전성기를 맞이했다는 생각이 드는 요즘입니다. LLM(Large Language Model) 뿐만 아니라 CV(Compu dnai-deny.tistory.com ※ 개정판을 작성하고 있습니다! 아래 글 보다는 링크를 확인하시는 것을 추천드립니다. 1. 머신러닝의 출현 여러분은 머신러닝이라는 단어를 처음 들을 때 어떤 생각이 드셨나요? 저는 처음에 머신러닝과 인공지능이 같은 단어라고 생각했습니다. 물론 아예 틀린 말은 아니지만, 머신러닝에는 인공지능이 포함되지 않으니 맞는 말도 아니라고 할 수 있죠. 20세기 후반, 자기 학습 알고리즘이 구현..