IT

기계 학습 모델의 장거리 의존성 처리에 대한 최신 연구

지 PD 2023. 4. 10. 00:50
728x90

본 기사는 기계 학습 모델이 긴 문맥, 다양한 미디어 소스 및 복잡한 시연으로부터 학습할 수 있는 긴 시퀀스 길이를 갖는 모델의 개발에 대해 논의합니다. Transformer의 어텐션 레이어는 시퀀스 길이에 대해 이차적으로 스케일이 조정되어, 거의 선형적인 시퀀스 길이 모델의 조사로 이어졌습니다. Long Range Arena 벤치마크는 다양한 모델이 장거리 의존성을 얼마나 잘 처리할 수 있는지 평가하기 위해 도입되었습니다.

S4는 구조화된 상태 공간 모델(SSM)을 기반으로 한 새로운 시퀀스 모델로, LRA에서 장거리 의존성을 성공적으로 모델링하고 Path-X에서 평균 이상의 성능을 달성했습니다. 그러나 S4는 언어 모델링에서 품질 차이가 있었습니다. 이 차이를 해결하기 위해 H3라는 새로운 레이어가 설계되었으며, 두 개의 SSM을 쌓아서 출력을 곱셈 게이트로 곱한 후, GPT-style Transformer의 대부분의 어텐션 레이어를 대체하고 퍼플렉서티 및 하위 평가에서 Transformer와 일치하는 결과를 얻었습니다.

다음 아키텍처는 Hyena로, 이는 Transformer와 퍼플렉서티 및 하위 작업에서 일치하는 첫 번째 완전히 거의 선형 시간 컨볼루션 모델을 제안하며, 초기 스케일링에서 유망한 결과를 보여주고 있습니다.

728x90