728x90
* ๊ฐ์ธ์ ์ผ๋ก ์ฝ๊ณ ๊ฐ๋ณ๊ฒ ์ ๋ฆฌํด๋ณด๋ ์ฉ๋๋ก ์์ฑํ ๊ธ์ด๋ผ ๋ฏธ์ํ๊ณ ์ ํํ์ง ์์ต๋๋ค. ์ํด ๋ถํ๋๋ฆฝ๋๋ค :D
- EnergyPlus๋ฅผ ํตํ ์๋ฎฌ๋ ์ด์
- ์๋ฒ ์ฌ์ด์ cold aisle ๋ฃ์ด๋๊ณ ์ด๊ฑธ๋ก ์ ์ฒด ์๋ฒ cooling์ ์ปจํธ๋กค
Simulation System model
Data center model
- ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ, ์์น์ ๋ ๋ฆฝ์ cooling system์ ๊ฐ์ง data center(DX -์ง์ ํ์ฅ / Chiller)
- IT Equipment + illumination๊ณผ ๊ฐ์ ์์ค์์ ๋ฐ์ํ๋ ๋ฐ์ด
- ITE ๋ถํ๋ ์ ๊ณฑ๋ฏธํฐ ๋น ์ ํด์ง ๋ถํ L(์ ๋ฑ ๋ฑ)๊ณผ ์๊ฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ๋ถํ๋ a์ ๊ณฑ
- zone 1 load density 4kw, zone 2 2kw
- ์์ ๋ถํ์ ์จ๋๋ฅผ ํ๋์ ํํ๋ก ์์ฑํด์ state์ ์ฌ์ฉ
- reward๋ก PUE์ IT Equipment outlet ์จ๋ ์ ๊ณต
- PUE๋ ์ต์ํ, ITE๋ ์ผ์ ์์ค ์ด๋ด
Cooling system model
- Action space
- ๊ฐ์ ์๋ ๊ธฐ๋ฐ / ๋ฌผ์ ์ฌ์ฉํ๋ ๋ฐฉ์์ด ๋ค๋ฆ
Problem statement
- ์จ๋ `\T_{amb}\` ์ ๋ถํ `\H_{ite}`\ , ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ tuple ์ ๊ณต
- ๋๊ฐ์์ 5๊ฐ์ง input์ ์ ์ดํ๋ ๊ฒ์ด ๋ชฉํ(์ ๊ทธ๋ฆผ์ Txx - DEC outlet temp, IEC outlet temp, chilled water loop outlet temp, DX cooling coil outlet temp, chiller cooling coil outlet temp)
- PUE์ ์ต์ํ์ ์๋ฒ ๊ณผ์ด์ ํจ๋ํฐ
- ๋ ๊ฐ์ ๋ชฉ์ ํจ์
- penalty function(์ต์ํ)
- λ - penalty ๊ณ์
- Tzi - zone i ์ ๋ํ ํ๊ท ITE ์จ๋
- φ - ๊ณผ์ด ๊ธฐ์ค threshold
- penalty function(์ต์ํ)
- ๋ ๊ฐ์ ๋ชฉ์ ํจ์
Neural end to end cooling control algorithm(CCA)
Batch Learning(Offline learning) / On Policy
- ์ค์๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ถ๊ฐํ๋ ๊ฒ์ ์ํ์ ๊ฐ์ํด์ผํ๊ธฐ ๋๋ฌธ์ ์ด ๊ฒฝ์ฐ offline learning(batch learning) ์ฌ์ฉ
- batch ํ์ต์๋ ๋ ๊ฐ์ง ์ข
๋ฅ๊ฐ ์๋๋ฐ on Policy์ off policy
- simulation ์๊ฐ์ ๋ฐ๋ฅธ ๋น์ฉ์ด ๋์์ off policy ์ฌ์ฉ
- Off-policy algorithms generally employ a separate behavior policy, which is independent of the policy being estimated, to generate the training trace; while on-policy directly uses control policy being estimated (in the real control practice or more likely in a simulator) to generate training data traces
CCA with offline trace
- ์ผ๋ฐ์ ์ธ ๊ฐํํ์ต ์ ๊ทผ์์ ๋ฏธ๋์ ๋ณด์ ๋ฐ์ดํฐ๋ ํ๊ฐ์ ์ฌ์ฉ๋๋ ๊ฒ๊ณผ๋ ๋ฌ๋ฆฌ
- ์ฌ๊ธฐ์์๋ ๋ฏธ๋ ๋ณด์ ๋ฐ์ดํฐ๋ ์ ์ฐ๊ณ ์์ ๋ถํ์ ๋ ์จ ๋ฐ์ดํฐ๊ฐ ์์คํ ์ ํ์ ์ ์
- ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์์ ๋ ์ ์ฉ๋๋๋ฐ ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ฏ๋ก ์ด๋ฒ ์๊ฐ์ ๊ด์ฐฐํ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ์๊ฐ์ ๋ฐ์๋๋๋ก ์๊ฐ ์ถ์(?)
- ๋ฐ์ดํฐ๋ ์ ๋ถ N ์๊ฐ ๋์์ ์๊ณ์ด
- Q-Network
- ํ์ฌ ์ํ s ์์ ํ๋ a๋ฅผ ์ทจํ์ ๋์ ๋น์ฉ ์ถ๋ ฅ
- ์ฌ๊ท์ ์ธ ์์ฌ๊ฒฐ์ ์๋ → ์ด์ ์ ์ํ์ ๋์๋ค๋ ๊ณ ๋ คํจ(?)
- MSE
- Policy Network
- ํ์ฌ ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ์ ๋ Q๋ฅผ ์ถ๋ ฅ
- ์ด๋ฐ์ validation error๊ฐ ์์ ๊ฒ์ ์ค๋ฅ๊ฐ ์๋. ํ์ต ๋ ๋ผ์ ๊ทธ๋ ๋ค.
Neural Network Design
- Q-Network
- activation function์ผ๋ก tanh ๋ฅผ ์ฌ์ฉํ๋ ๋ ๊ฐ์ hidden layer
- linear output layer
- ์์ reward ์ถ๋ ฅ
- ์ค์ y ๋ฐ์ดํฐ์ ์์ธก๋ yr ๋ฐ์ดํฐ๊ฐ์ ๊ฐ๊ทน์ ์ค์ด๋ ๊ฒ์ ๋ชฉํ๋ก ํจ
- Policy Network
- linear activation function๊ณผ tanh activation function์ ์ฌ์ฉํ๋ ๋ ๊ฐ์ hidden layer
- ๋ค์ control action์ธ a๋ฅผ ์ถ๋ ฅ
- Q-Network์ loss function ์ต์ ํ
- ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ (-1, 1) ๋ฒ์๋ก ์ ๊ทํํด์ tanh activation function์ ๋ง์ถ๊ณ , ์ค์ ์๋์ง์ ์จ๋ ๊ฐ์ ๊ณ์ฐํด์ผํ ๋ ๋น์ ๊ทํํจ.
- Data
- state data series, action, reward ๋ฐ์ดํฐ ํ์
- Q-NN input
- policy network input
- loss data y ๊ณ์ฐ์ ์ํ PUE์ ์จ๋ ๋ฐ์ดํฐ
- initialize
- Q network ์ policy network ์์ฑ
- weight parameter random initialize
- epoch / mini batch์ ๋ฐ๋ผ์
- Q NN ํ๋ผ๋ฏธํฐ ์ต์ ํ
- policy network ํ๋ผ๋ฏธํฐ ์ต์ ํ
- swap / evaluation
- return
- ์ต์ ๊ฐ์ค์น ํ๋ผ๋ฏธํฐ๋ก ์ธํ ๋ Q network์ policy network
728x90
'๐ฌ ML & Data > ๐ ๋ ผ๋ฌธ & ๋ชจ๋ธ ๋ฆฌ๋ทฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 2 (1) | 2024.12.11 |
---|---|
[Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 1 (1) | 2024.12.11 |
[Model Review] TadGAN(Time series Anomaly Detection GAN) (0) | 2023.05.17 |
[Model Review] YOLOv5 + Roboflow Annotation (0) | 2023.03.14 |
[Model Review] MobileNet SSD ๋ ผ๋ฌธ ํต ๋ฆฌ๋ทฐ (1) | 2022.12.13 |