selective ssms

    [Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 2

    3. Selective State Space Models3.1 Selection as a Means of Compression병합 작업에 관한 두가지 실행 예시Selective Copying : 기억할 토큰의 위치를 바꿔 Copying Task를 수정한다. 관련있는 토큰을 기억하고 관련없는 토큰을 걸러내려면 내용 인식 추론(content-aware resoning)이 필요하다.Induction Heads : 적절한 컨텍스트에서 출력을 낼 시기를 알기 위해서는 내용 인식 추론이 필요하다. LLM의 동작 과정 설명을 위해 가장 많이 쓰이는 매커니즘.이 작업은 LTI 모델의 실패한 모드를 보여준다. 회귀적 관점에서 constant dynamics(여기에서는 $\bar{A}, \bar{B}$)는 context에..