mamba
[Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 2
3. Selective State Space Models3.1 Selection as a Means of Compression병합 작업에 관한 두가지 실행 예시Selective Copying : 기억할 토큰의 위치를 바꿔 Copying Task를 수정한다. 관련있는 토큰을 기억하고 관련없는 토큰을 걸러내려면 내용 인식 추론(content-aware resoning)이 필요하다.Induction Heads : 적절한 컨텍스트에서 출력을 낼 시기를 알기 위해서는 내용 인식 추론이 필요하다. LLM의 동작 과정 설명을 위해 가장 많이 쓰이는 매커니즘.이 작업은 LTI 모델의 실패한 모드를 보여준다. 회귀적 관점에서 constant dynamics(여기에서는 $\bar{A}, \bar{B}$)는 context에..
[Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 1
나온지 벌써 1년도 넘었지만 최신 논문 리뷰를 안 한지가 백만년 정도 된 것 같아서 한 번 읽어보는 mamba... 그리 정확한 리뷰는 아닐 수 있습니다. 사실 번역에 가깝고 좀 더 이해해보면서 내용 수정하겠습니다. 1. Introduction최근들어 Structured State Space Sequence Models(SSMs) 가 시퀀스 모델링 구조 분야에서 유망한 클래스로 등장했다. 전통적인 state space models에 영감을 받아 CNN과 RNN의 통합을 조율한다(interpreted).Mamba에서는 selective state space model의 새로운 종류를 제안한다. 시퀄스 길이에 따라 선형적으로 확장하면서 transformer의 모델링 파워를 따라잡기 위해서 몇몇의 axes(여..