'🐬 ML & Data/📘 논문 & 모델 리뷰' 카테고리의 글 목록

모델을 돌리기 위해서 만든 건 아니고, 이전에 공부한 내용을 코드로 구현해보면서 이해를 깊이하는 시간을 갖고자 만들어보았다.따라서 실제 데이터 넣고 학습했을 때 구데기일 수 있다는 점을 참고해주시길...1. Attention 구현하기 $$Attention = softmax(\frac{QK^{T}}{\sqrt{ d_{k} }})V$$ 이 공식에 맞게 구현하면 된다. 여기서 $d_{k}$ 는 k의 차원수이다. 차례차례 보면, 순서대로 차근차근 진행하면 된다. 마스크 적용에 관한 건은 뒤에서.def scaled_dot_product_attention(query, key, value, mask=None): # QK^T matmul_qk = tf.matmul(query, key, transp..

분명 내가 딥러닝에 입문했을 때도 Transformer가 각광받고 있었는데 아직까지도 Transformer가 각광받고 있다. 세상은 변하는데... 참 응용도도 높고 성능이 좋은 모델임에 틀림없다.예전에 공부해본바 있지만 경험치가 쌓인 지금 좀 더 지식을 공고히할 겸 정리해봤다. 글로 옮기기 귀찮아서 손글씨 사진으로 대체한다. 1. Attention 개념 이해하기2. Self-Attention이란?3. Transformer 구조4. Transformer의 Query, Key, Value 구해보기5. Multi-head Attention6. Encoder와 Decoder에서 Self-Attention의 동작7. Masked Self Attention8. 기타 개념 및 기법8.1. Feed Forward8.2..

3. Selective State Space Models3.1 Selection as a Means of Compression병합 작업에 관한 두가지 실행 예시Selective Copying : 기억할 토큰의 위치를 바꿔 Copying Task를 수정한다. 관련있는 토큰을 기억하고 관련없는 토큰을 걸러내려면 내용 인식 추론(content-aware resoning)이 필요하다.Induction Heads : 적절한 컨텍스트에서 출력을 낼 시기를 알기 위해서는 내용 인식 추론이 필요하다. LLM의 동작 과정 설명을 위해 가장 많이 쓰이는 매커니즘.이 작업은 LTI 모델의 실패한 모드를 보여준다. 회귀적 관점에서 constant dynamics(여기에서는 $\bar{A}, \bar{B}$)는 context에..

나온지 벌써 1년도 넘었지만 최신 논문 리뷰를 안 한지가 백만년 정도 된 것 같아서 한 번 읽어보는 mamba... 그리 정확한 리뷰는 아닐 수 있습니다. 사실 번역에 가깝고 좀 더 이해해보면서 내용 수정하겠습니다. 1. Introduction최근들어 Structured State Space Sequence Models(SSMs) 가 시퀀스 모델링 구조 분야에서 유망한 클래스로 등장했다. 전통적인 state space models에 영감을 받아 CNN과 RNN의 통합을 조율한다(interpreted).Mamba에서는 selective state space model의 새로운 종류를 제안한다. 시퀄스 길이에 따라 선형적으로 확장하면서 transformer의 모델링 파워를 따라잡기 위해서 몇몇의 axes(여..

* 개인적으로 읽고 가볍게 정리해보는 용도로 작성한 글이라 미숙하고 정확하지 않습니다. 양해 부탁드립니다 :D Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning Cooling system plays a critical role in a modern data center (DC). Developing an optimal control policy for DC cooling system is a challenging task. The prevailing approaches often rely on approximating system models that are built upon the knowled..

이번에 고장진단에 관한 과제를 하게 되면서 LSTM AE나 CNN 보다 최근 모델을 적용해보고 싶어서 TadGAN을 골랐다. 아직 완전히 이해했는지는 모르겠으나 알게된대로 조금 적어보려고 한다. TadGAN(Time series Anomaly Detection GAN) TadGAN은 2020년 발표된 모델로, 이름 그대로 시계열 데이터의 이상 탐지용 GAN 모델이다. GAN 모델은 복원, 이미지 생성 등에 특화되어 있는데, 이 성질을 이용하여 LSTM Auto Encoder처럼 패턴을 복원하며 학습하고, 이후에 들어오는 새로운 데이터를 기반으로 예측했을 때 에러가 큰 부분을 이상치로 탐지하는 것이다. TadGAN의 구조 TadGAN은 2개의 Generator와 2개의 Critic 으로 구성된다. Gene..

! 주의 ! 이 글에는 적은 yolo v5에 대한 요약과 짧은 사용법, 그리고 roboflow annotation에 대한 개인적인 견해가 쓰여있습니다. 1. YOLOv5 Summary You Only Look Once - one stage detection 모델 R-CNN이나 Faster R-CNN과 달리 이미지 분할 없이 이미지를 한 번만 보는 특징 전처리모델과 인공신경망 통합 실시간 객체탐지 Backbone : input image → feature map CSP-Darknet https://keyog.tistory.com/30 Head : predict classes / bounding boxes Dense Prediction : One stage detector(predict classes + b..

퀄리티가 높지 않습니다. 주의! Mobile Object Detection model - based on VGG- 16 https://arxiv.org/abs/1704.04861 1. Summary VGG-16 기반 기본 모델이다. 기존 VGG-16 모델이 3x3x3 convolution을 3-dimention으로 사용했기 때문에 총 parameter 개수가 81개였는데, mobile 기기 위에 올리기 위해 depthwise convolution과 pointwise convolution을 함께 사용하여 331 x 3 + 311 x 3 = 27 + 9 = 36개의 parameter로 줄인 방식의 모델이다. → 이를 Depth separable convolution 이라고 부른다. 2. Architectur..

티스토리툴바