๐ฌ ML & Data
[๊ฐํํ์ต] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)
Dueling Double DQN https://arxiv.org/pdf/1509.06461.pdf https://arxiv.org/pdf/1511.06581.pdf Double DQN DQN์์ reward๋ฅผ ๊ณผ๋ ํ๊ฐํ๋ ๋ฌธ์ ๊ฐ ์์. Q Value๊ฐ agent๊ฐ ์ค์ ๋ณด๋ค ๋์ ๋ฆฌํด์ ๋ฐ์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ ๊ฒฝํฅ ⇒ Q learning update ๋ฐฉ์ ์์ ๋ค์ ์ํ(state)์ ๋ํ Q value ์ต๋๊ฐ์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ Q ๊ฐ์ ๋ํ max ์ฐ์ฐ์ ํธํฅ์ ์ต๋ํํ๋ค. ํ๊ฒฝ์ ์ต๋ true value๊ฐ 0์ธ๋ฐ agent๊ฐ ์ถ์ ํ๋ ์ต๋ true value๊ฐ ์์์ธ ๊ฒฝ์ฐ์ ์ฑ๋ฅ ์ ํ ํด๊ฒฐ์ ์ํด ๋ ๊ฐ์ network ์ฌ์ฉ. Q Next : action selection → ๋ค์ ์ก์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ..
[๋ผ์ดํธ ๋ฅ๋ฌ๋] 0. Intro
์ ๋ธ๋ก๊ทธ์์ ์ ์ง๋ ๋ชจ๋ฅด๊ฒ ์ง๋ง ๊พธ์คํ ์ฌ๋๋ฐ์์จ ๋ผ์ดํธ ๋จธ์ ๋ฌ๋ ์๋ฆฌ์ฆ๋ฅผ ์ด์ง๋ ๋ฒ์จ 3๋ ๋ฐ์ด ์ง๋ฌ์ต๋๋ค. ์ฒ์ ์ด ์๋ฆฌ์ฆ๋ฅผ ์ธ ๋ ์ ๋ ์ด์ ๋ง ์ปดํจํฐ๊ณตํ 1ํ๋ ๊ณผ์ ์ ๋ง์น ํ์์ด์๊ณ , ์๋ฃ๊ตฌ์กฐ๋ฉฐ ์๊ณ ๋ฆฌ์ฆ๋ ๋ชจ๋ฅด๋ ์ฃผ์ฃผ์ฃผ์ฃผ์ฃผ๋์ด ๊ฐ๋ฐ์ ์์ ์ด์์ต๋๋ค. ๋๋ฌธ์ ์ ๊ฐ ๋ด๋ ‘์, ์ด ๋ ์์ด ์ดํด๋ฅผ ๋ชปํ๊ณ ์ผ๊ตฌ๋….’ ํ๋ ๋ถ๋ถ๋ค์ด ๋ถ๋ช ์กด์ฌํฉ๋๋ค. 3๋ ๋ฐ์ด ์ง๋ฌ๊ณ , ์ ๋ 8๊ฐ์ ์ ์ ํ์ฌ ์กธ์ ์ ํ์ผ๋ฉฐ, ๋จธ์ ๋ฌ๋ ์์ง๋์ด ๊ฒธ ์ด๊ฒ์ ๊ฒ ๊ฐ๋ฐ์๋ก ๊ฒฝํ์ ์์์ง๋ 1๋ ์ด ์กฐ๊ธ ๋์์ต๋๋ค. ์ฌ์ค ์์ง๋ ์๋ ๊ฒ ๋ง๋ค๊ณ ๋๊ปด์ง์ง๋ ์์ต๋๋ค๋ง, ์ ๋์ ์ ๋ณด๋ค๋ ๋ญ๊ฐ ๋์๋ ๋์ ๊ฒ๋ ์ฌ์ค์ ๋๋ค. ์ด์ ํ ์ฃผ์ฃผ๋์ด ๊ฐ๋ฐ์์ฏค์ ๋๊ฒ ์ฃ ? ๊ทธ๋ฆฌ๊ณ ๋น์์ ๋ ์์ ๋ชฐ๋๊ฒ ์ง๋ง ๋ด๋ ํ๊ธฐ ๋ํ์ ์ง์์ ์ผ๋์ ๋๊ณ ์๋ ๋ง..
[Data] ์ ๋ ๋ชจํฐ ์ด์ํ์ง ๋ฐ ๋ถ๋ฅ๋ฅผ ์ํ ์ฃผํ์ ๋ถ์
1. ๋ฐ์ดํฐ ์ทจ๋ Sampling rate 25.6kHz DC Motor, ์์ฒด ์ ์ ์คํํ๊ฒฝ ๋ฐ์ดํฐ ํ์ผ ๋น 102,400๊ฐ ํฌ์ธํธ 2. FFT ๋ชจํฐ ์ฃผํ์ ๋ถ์ 1. Normal ์ ์์ํ ๋ชจํฐ์ ์ฃผํ์๋ ์ง๋ ์ฐจ์(Harmonic)๊ฐ ๋ฐ๋น๋กํ๋ค. ํ์ฌ ์คํ ์ธํธ์ ๋ชจํฐ๋ ์ฝ 3600rpm์ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก ์ง๋์ฐจ์๋ 1์ฐจ 60Hz, 2์ฐจ 120Hz, 3์ฐจ 180Hz๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ์ FFT ์ฃผํ์ ๋ถ์ ๊ฒฐ๊ณผ 1์ฐจ, 2์ฐจ, 3์ฐจ ์ง๋ ์ฐจ์ ์์ผ๋ก amplitude๊ฐ ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. 2. Misalignment ์ค์ ๋ ฌ(Misalignment) ์ํ๋ Parallel Misalignment(์ง๋ฉด๊ณผ ๋ชจํฐ์ ์ถ์ ํํํ๋ ๋ฒ ์ด๋ง์ ๊ธฐ์ค์ผ๋ก ๋จ์ฐจ๊ฐ ์กด์ฌํ ๋)์ Angular Misalign..
[๊ฐํํ์ต] gym์ผ๋ก ๊ฐํํ์ต custom ํ๊ฒฝ ์์ฑ๋ถํฐ Dueling DDQN ํ์ต๊น์ง
์ธํฐ๋ท์ ๋ค ๋ค์ ธ๋ดค๋๋ฐ ๊ฐํํ์ต์ gym์์ ์ ๊ณตํ๋ ๊ฒ์ agent ์ฌ์ฉํด์ ํ๋ ์์ ๋ ์ก์ฒ๋ง ๊ฐ๊ณ ์ปค์คํ ํด์ ํ์ต์ ํ๋ ์์ ๋ ๋จ ํ ๊ฐ ์์๋ค. ์ด์ ๋ง ๊ณต๋ถ๋ฅผ ์์ํ๋ ์ฌ๋๋ค์๊ฒ ๋์์ด ๋์์ผ๋ฉด ํ๋ ๋ง์์ผ๋ก ๊ฐ๋จํ๊ฒ ์จ๋ณด๊ณ ์ ํ๋ค. 1. Gym์ Env ๊ตฌ์กฐ ์ดํด๋ณด๊ธฐ ๊ผญ ๊ทธ๋์ผํ๋ ๊ฒ์ ์๋์ง๋ง(๋ฐ๋ฐ๋ฅ๋ถํฐ ๊ตฌํํ๋ ๋ฐฉ๋ฒ๋ ์๊ธด ํ๋ค) ์ด์จ๋ gym ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ environment ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์ ๊ตฌํํด๋ณผ ๊ฒ์ด๋ค. !pip install gym gym ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ env ๊ตฌ์กฐ๋ ๋์ถฉ ์๋์ ๊ฐ๋ค. site-packages/gym/core.py ์์ ์ง์ ๋ณผ ์ ์๋ค. class Env(Generic[ObsType, ActType]):m.Generator] = None """ The ma..
[Paper Review] Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning
* ๊ฐ์ธ์ ์ผ๋ก ์ฝ๊ณ ๊ฐ๋ณ๊ฒ ์ ๋ฆฌํด๋ณด๋ ์ฉ๋๋ก ์์ฑํ ๊ธ์ด๋ผ ๋ฏธ์ํ๊ณ ์ ํํ์ง ์์ต๋๋ค. ์ํด ๋ถํ๋๋ฆฝ๋๋ค :D Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning Cooling system plays a critical role in a modern data center (DC). Developing an optimal control policy for DC cooling system is a challenging task. The prevailing approaches often rely on approximating system models that are built upon the knowled..
[๊ฐํํ์ต] DQN(Deep Q-Network)
[Model Review] Markov Decision Process & Q-Learning 1. ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(MDP) ๋ฐ๋ฅ๋ถํฐ ๋ฐฐ์ฐ๋ ๊ฐํํ์ต - ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(Markov Decision Process) ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค(Markov Process) ์ํ S์ ์ ์ดํ๋ฅ ํ๋ ฌ P๋ก ์ ์๋จ ํ๋์ ์ํ์์ ๋ค๋ฅธ dnai-deny.tistory.com Deep Reinforcement Learning ๊ธฐ์กด Q Learning์์๋ State์ Action์ ํด๋นํ๋ Q-Value๋ฅผ ํ ์ด๋ธ ํ์์ผ๋ก ์ ์ฅ state space์ action space๊ฐ ์ปค์ง๋ฉด Q-Value๋ฅผ ์ ์ฅํ๊ธฐ ์ํด memory์ exploration time์ด ์ฆ๊ฐํ๋ ๋ฌธ์ ⇒ ๋ฅ๋ฌ๋์ผ๋ก Q-Table์ ์์ฑํ๋ Q..
[๊ฐํํ์ต] Markov Decision Process & Q-Learning
1. ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(MDP) ๋ฐ๋ฅ๋ถํฐ ๋ฐฐ์ฐ๋ ๊ฐํํ์ต - ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(Markov Decision Process) ๋ง๋ฅด์ฝํ ํ๋ก์ธ์ค(Markov Process) ์ํ S์ ์ ์ดํ๋ฅ ํ๋ ฌ P๋ก ์ ์๋จ ํ๋์ ์ํ์์ ๋ค๋ฅธ ์ํ๋ก ์ ์ด๊ฐ ์ผ์ด๋จ ์ํ ์ ์ด์ ๊ฐ๊ฐ ํ๋ฅ ์กด์ฌ S4์ ๊ฒฝ์ฐ ์ข ๋ฃ์ํ ๋ง๋ฅด์ฝํ ์ฑ์ง(Markov property) $$ P[S_{t+1} | S_t] = P[S_{t+1} |S_1,S_2, ... S_t] $$ ์ํ๊ฐ ๋๊ธฐ๊น์ง์ ๊ณผ์ ์ ํ๋ฅ ๊ณ์ฐ์ ์ํฅ์ ์ฃผ์ง ์์. ์ด๋ ์์ ์ ์ํ๋ก ๋ค์ ์ํ๋ฅผ ๊ฒฐ์ ํ ์ ์์ ๋ ๋ง๋ฅด์ฝํํ ์ํ๋ผ๊ณ ํจ.๋ฐ๋ก) ์ด์ ํ๋ ์ฌ์ง(์ด๋ ์์ ์ ์ฌ์ง์ผ๋ก๋ ํ์ง/์ ์ง/์๋ ๋ฑ์ ํ์ ๋ถ๊ฐ → ๋ค์ ์ํ ๊ฒฐ์ ๋ถ๊ฐ๋ฅ) ex) ์ฒด์ค ๊ฒ์(์ด๋ ..
[Model Review] TadGAN(Time series Anomaly Detection GAN)
์ด๋ฒ์ ๊ณ ์ฅ์ง๋จ์ ๊ดํ ๊ณผ์ ๋ฅผ ํ๊ฒ ๋๋ฉด์ LSTM AE๋ CNN ๋ณด๋ค ์ต๊ทผ ๋ชจ๋ธ์ ์ ์ฉํด๋ณด๊ณ ์ถ์ด์ TadGAN์ ๊ณจ๋๋ค. ์์ง ์์ ํ ์ดํดํ๋์ง๋ ๋ชจ๋ฅด๊ฒ ์ผ๋ ์๊ฒ๋๋๋ก ์กฐ๊ธ ์ ์ด๋ณด๋ ค๊ณ ํ๋ค. TadGAN(Time series Anomaly Detection GAN) TadGAN์ 2020๋ ๋ฐํ๋ ๋ชจ๋ธ๋ก, ์ด๋ฆ ๊ทธ๋๋ก ์๊ณ์ด ๋ฐ์ดํฐ์ ์ด์ ํ์ง์ฉ GAN ๋ชจ๋ธ์ด๋ค. GAN ๋ชจ๋ธ์ ๋ณต์, ์ด๋ฏธ์ง ์์ฑ ๋ฑ์ ํนํ๋์ด ์๋๋ฐ, ์ด ์ฑ์ง์ ์ด์ฉํ์ฌ LSTM Auto Encoder์ฒ๋ผ ํจํด์ ๋ณต์ํ๋ฉฐ ํ์ตํ๊ณ , ์ดํ์ ๋ค์ด์ค๋ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธกํ์ ๋ ์๋ฌ๊ฐ ํฐ ๋ถ๋ถ์ ์ด์์น๋ก ํ์งํ๋ ๊ฒ์ด๋ค. TadGAN์ ๊ตฌ์กฐ TadGAN์ 2๊ฐ์ Generator์ 2๊ฐ์ Critic ์ผ๋ก ๊ตฌ์ฑ๋๋ค. Gene..
[Model Review] YOLOv5 + Roboflow Annotation
! ์ฃผ์ ! ์ด ๊ธ์๋ ์ ์ yolo v5์ ๋ํ ์์ฝ๊ณผ ์งง์ ์ฌ์ฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ roboflow annotation์ ๋ํ ๊ฐ์ธ์ ์ธ ๊ฒฌํด๊ฐ ์ฐ์ฌ์์ต๋๋ค. 1. YOLOv5 Summary You Only Look Once - one stage detection ๋ชจ๋ธ R-CNN์ด๋ Faster R-CNN๊ณผ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ๋ถํ ์์ด ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ๋ง ๋ณด๋ ํน์ง ์ ์ฒ๋ฆฌ๋ชจ๋ธ๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง ํตํฉ ์ค์๊ฐ ๊ฐ์ฒดํ์ง Backbone : input image → feature map CSP-Darknet https://keyog.tistory.com/30 Head : predict classes / bounding boxes Dense Prediction : One stage detector(predict classes + b..
[Model Review] MobileNet SSD ๋ ผ๋ฌธ ํต ๋ฆฌ๋ทฐ
ํ๋ฆฌํฐ๊ฐ ๋์ง ์์ต๋๋ค. ์ฃผ์! Mobile Object Detection model - based on VGG- 16 https://arxiv.org/abs/1704.04861 1. Summary VGG-16 ๊ธฐ๋ฐ ๊ธฐ๋ณธ ๋ชจ๋ธ์ด๋ค. ๊ธฐ์กด VGG-16 ๋ชจ๋ธ์ด 3x3x3 convolution์ 3-dimention์ผ๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ด parameter ๊ฐ์๊ฐ 81๊ฐ์๋๋ฐ, mobile ๊ธฐ๊ธฐ ์์ ์ฌ๋ฆฌ๊ธฐ ์ํด depthwise convolution๊ณผ pointwise convolution์ ํจ๊ป ์ฌ์ฉํ์ฌ 331 x 3 + 311 x 3 = 27 + 9 = 36๊ฐ์ parameter๋ก ์ค์ธ ๋ฐฉ์์ ๋ชจ๋ธ์ด๋ค. → ์ด๋ฅผ Depth separable convolution ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. 2. Architectur..