본 기사는 기계 학습 모델이 긴 문맥, 다양한 미디어 소스 및 복잡한 시연으로부터 학습할 수 있는 긴 시퀀스 길이를 갖는 모델의 개발에 대해 논의합니다. Transformer의 어텐션 레이어는 시퀀스 길이에 대해 이차적으로 스케일이 조정되어, 거의 선형적인 시퀀스 길이 모델의 조사로 이어졌습니다. Long Range Arena 벤치마크는 다양한 모델이 장거리 의존성을 얼마나 잘 처리할 수 있는지 평가하기 위해 도입되었습니다.S4는 구조화된 상태 공간 모델(SSM)을 기반으로 한 새로운 시퀀스 모델로, LRA에서 장거리 의존성을 성공적으로 모델링하고 Path-X에서 평균 이상의 성능을 달성했습니다. 그러나 S4는 언어 모델링에서 품질 차이가 있었습니다. 이 차이를 해결하기 위해 H3라는 새로운 레이어가 설..