'🐬 ML & Data' 카테고리의 글 목록 (2 Page)

※ 아래 링크의 내용을 공부하며 한국어로 정리한 내용입니다. Reinforcement Learning: Dealing with Sparse Reward Environments Reinforcement Learning (RL) is a method of machine learning in which an agent learns a strategy through interactions with its environment… medium.com 1. Sparse Reward Sparse Reward(희박한 보상) : Agent가 목표 상황에 가까워졌을 때만 긍정 보상을 받는 경우 현재 실험 환경 세팅과 같음 Curiosity-Driven method agent가 관심사 밖의 환경에도 동기를 받도록 Curric..

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다. 기존 DQN 방식의 insight들에 batch normalization replay buffer target Q network Actor-critic 파라미터화 된 actor function을 가짐 actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정 policy gradient 방식으로 학습 여기에서 J가 Objective Function(목표함수) actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter..

Dueling Double DQN https://arxiv.org/pdf/1509.06461.pdf https://arxiv.org/pdf/1511.06581.pdf Double DQN DQN에서 reward를 과대 평가하는 문제가 있음. Q Value가 agent가 실제보다 높은 리턴을 받을 것이라고 생각하는 경향 ⇒ Q learning update 방정식에 다음 상태(state)에 대한 Q value 최대값이 존재하기 때문 Q 값에 대한 max 연산은 편향을 최대화한다. 환경의 최대 true value가 0인데 agent가 추정하는 최대 true value가 양수인 경우에 성능 저하 해결을 위해 두 개의 network 사용. Q Next : action selection → 다음 액션으로 가장 좋은 ..

제 블로그에서 왠지는 모르겠지만 꾸준히 사랑받아온 라이트 머신러닝 시리즈를 쓴지도 벌써 3년 반이 지났습니다. 처음 이 시리즈를 쓸 때 저는 이제 막 컴퓨터공학 1학년 과정을 마친 학생이었고, 자료구조며 알고리즘도 모르는 주주주주주니어 개발자 시절이었습니다. 때문에 제가 봐도 ‘아, 이 녀석이 이해를 못하고 썼구나….’ 하는 부분들이 분명 존재합니다. 3년 반이 지났고, 저는 8개월 전에 학사 졸업을 했으며, 머신러닝 엔지니어 겸 이것저것 개발자로 경험을 쌓은지도 1년이 조금 넘었습니다. 사실 아직도 아는 게 많다고 느껴지지는 않습니다만, 저때의 저보다는 뭐가 되었든 나은 것도 사실입니다. 이제 한 주주니어 개발자쯤은 됐겠죠? 그리고 당시의 녀석은 몰랐겠지만 내년 후기 대학원 지원을 염두에 두고 있는 만..

1. 데이터 취득 Sampling rate 25.6kHz DC Motor, 자체 제작 실험환경 데이터 파일 당 102,400개 포인트 2. FFT 모터 주파수 분석 1. Normal 정상상태 모터의 주파수는 진동 차수(Harmonic)가 반비례한다. 현재 실험 세트의 모터는 약 3600rpm을 가지고 있으므로 진동차수는 1차 60Hz, 2차 120Hz, 3차 180Hz로 이루어져 있다. 위 FFT 주파수 분석 결과 1차, 2차, 3차 진동 차수 순으로 amplitude가 감소하는 것을 확인할 수 있다. 2. Misalignment 오정렬(Misalignment) 상태는 Parallel Misalignment(지면과 모터의 축은 평행하나 베어링을 기준으로 단차가 존재할 떄)와 Angular Misalign..

인터넷을 다 뒤져봤는데 강화학습을 gym에서 제공하는 게임 agent 사용해서 하는 예제는 육천만 개고 커스텀해서 학습을 하는 예제는 단 한 개 있었다. 이제 막 공부를 시작하는 사람들에게 도움이 되었으면 하는 마음으로 간단하게 써보고자 한다. 1. Gym의 Env 구조 살펴보기 꼭 그래야하는 것은 아니지만(밑바닥부터 구현하는 방법도 있긴 하다) 어쨌든 gym 라이브러리의 environment 구조를 기반으로 해서 구현해볼 것이다. !pip install gym gym 라이브러리의 env 구조는 대충 아래와 같다. site-packages/gym/core.py 에서 직접 볼 수 있다. class Env(Generic[ObsType, ActType]):m.Generator] = None """ The ma..

* 개인적으로 읽고 가볍게 정리해보는 용도로 작성한 글이라 미숙하고 정확하지 않습니다. 양해 부탁드립니다 :D Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning Cooling system plays a critical role in a modern data center (DC). Developing an optimal control policy for DC cooling system is a challenging task. The prevailing approaches often rely on approximating system models that are built upon the knowled..

[Model Review] Markov Decision Process & Q-Learning 1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 dnai-deny.tistory.com Deep Reinforcement Learning 기존 Q Learning에서는 State와 Action에 해당하는 Q-Value를 테이블 형식으로 저장 state space와 action space가 커지면 Q-Value를 저장하기 위해 memory와 exploration time이 증가하는 문제 ⇒ 딥러닝으로 Q-Table을 생성하는 Q..

1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 상태로 전이가 일어남 상태 전이에 각각 확률 존재 S4의 경우 종료상태 마르코프 성질(Markov property) $$ P[S_{t+1} | S_t] = P[S_{t+1} |S_1,S_2, ... S_t] $$ 상태가 되기까지의 과정은 확률 계산에 영향을 주지 않음. 어느 시점의 상태로 다음 상태를 결정할 수 있을 때 마르코프한 상태라고 함.반례) 운전하는 사진(어느 시점의 사진으로는 후진/전진/속도 등을 파악 불가 → 다음 상태 결정 불가능) ex) 체스 게임(어느 ..

이번에 고장진단에 관한 과제를 하게 되면서 LSTM AE나 CNN 보다 최근 모델을 적용해보고 싶어서 TadGAN을 골랐다. 아직 완전히 이해했는지는 모르겠으나 알게된대로 조금 적어보려고 한다. TadGAN(Time series Anomaly Detection GAN) TadGAN은 2020년 발표된 모델로, 이름 그대로 시계열 데이터의 이상 탐지용 GAN 모델이다. GAN 모델은 복원, 이미지 생성 등에 특화되어 있는데, 이 성질을 이용하여 LSTM Auto Encoder처럼 패턴을 복원하며 학습하고, 이후에 들어오는 새로운 데이터를 기반으로 예측했을 때 에러가 큰 부분을 이상치로 탐지하는 것이다. TadGAN의 구조 TadGAN은 2개의 Generator와 2개의 Critic 으로 구성된다. Gene..

! 주의 ! 이 글에는 적은 yolo v5에 대한 요약과 짧은 사용법, 그리고 roboflow annotation에 대한 개인적인 견해가 쓰여있습니다. 1. YOLOv5 Summary You Only Look Once - one stage detection 모델 R-CNN이나 Faster R-CNN과 달리 이미지 분할 없이 이미지를 한 번만 보는 특징 전처리모델과 인공신경망 통합 실시간 객체탐지 Backbone : input image → feature map CSP-Darknet https://keyog.tistory.com/30 Head : predict classes / bounding boxes Dense Prediction : One stage detector(predict classes + b..

퀄리티가 높지 않습니다. 주의! Mobile Object Detection model - based on VGG- 16 https://arxiv.org/abs/1704.04861 1. Summary VGG-16 기반 기본 모델이다. 기존 VGG-16 모델이 3x3x3 convolution을 3-dimention으로 사용했기 때문에 총 parameter 개수가 81개였는데, mobile 기기 위에 올리기 위해 depthwise convolution과 pointwise convolution을 함께 사용하여 331 x 3 + 311 x 3 = 27 + 9 = 36개의 parameter로 줄인 방식의 모델이다. → 이를 Depth separable convolution 이라고 부른다. 2. Architectur..

nms(None-maximum-suppression) Soft-NMS -- Improving Object Detection With One Line of Code Theory 예측된 bounding box의 confidence가 임계치(threshold) 이상이면 참으로 처리하게 된다. 그렇게 되면 하나의 Object에 대해 여러 개의 Bounding box가 겹쳐서 생성될 수 있다. → 한 객체에 대해 가장 신뢰도가 높은 하나의 bounding box만 남기고 나머지를 삭제하는 post processing 알고리즘의 일종 = nms non-maximum suppression bounding box 집합에서 class score이 가장 높은 것부터 다른 집합으로 옮기고 원본 bounding box 집합에..

SSD, Faster R-CNN에서 사용하는 대표적인 성능평가지표인 mAP(mean Average Precision)에 대해 공부한 내용을 정리해봤습니다. 차마 다시 글로 적을 자신이 없어서 필기 사진으로 대체합니다ㅎㅎ mAP 구현은 COCO Eval API와 Cartucho님의 mAP 구현 repository를 참고하여 COCO format에서는 COCO Eval을, VOC데이터는 Cartucho mAP를 사용해서 만들었습니다. annotation format만 맞춰주면 되기 때문에 수정해서 적용시키는데 어려운 것은 없을 것 같습니다. 이 글을 보고 시도하시다가 어려운 점이 있으시면 댓글로 남겨주세요. GitHub - cocodataset/cocoapi: COCO API - Dataset @ http:..

Load Pretrained model in pytorch Pretrained model pth로 저장된 torch pretrained model(weight)를 불러와서 사용 weight의 일부만 불러와서 사용할 수 있다. pth = dictionary 로 구성된다. Get format pth 파일은 Dictionary 형태로 저장되어 있다. pytorch의 load를 통해서 불러올 수 있다. import torch model = torch.load('model.pth') print(model.keys()) model.keys() 를 사용해서 key 값들을 불러올 수 있는데, 이것으로 모델 구조를 파악할 수 있다. 현재 예제로 사용하고 있는 pth 파일은 mobilenet-ssd-v1 모델의 mAP 0..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

🐬 ML & Data

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역