728x90
본 기사는 기계 학습 모델이 긴 문맥, 다양한 미디어 소스 및 복잡한 시연으로부터 학습할 수 있는 긴 시퀀스 길이를 갖는 모델의 개발에 대해 논의합니다. Transformer의 어텐션 레이어는 시퀀스 길이에 대해 이차적으로 스케일이 조정되어, 거의 선형적인 시퀀스 길이 모델의 조사로 이어졌습니다. Long Range Arena 벤치마크는 다양한 모델이 장거리 의존성을 얼마나 잘 처리할 수 있는지 평가하기 위해 도입되었습니다.
S4는 구조화된 상태 공간 모델(SSM)을 기반으로 한 새로운 시퀀스 모델로, LRA에서 장거리 의존성을 성공적으로 모델링하고 Path-X에서 평균 이상의 성능을 달성했습니다. 그러나 S4는 언어 모델링에서 품질 차이가 있었습니다. 이 차이를 해결하기 위해 H3라는 새로운 레이어가 설계되었으며, 두 개의 SSM을 쌓아서 출력을 곱셈 게이트로 곱한 후, GPT-style Transformer의 대부분의 어텐션 레이어를 대체하고 퍼플렉서티 및 하위 평가에서 Transformer와 일치하는 결과를 얻었습니다.
다음 아키텍처는 Hyena로, 이는 Transformer와 퍼플렉서티 및 하위 작업에서 일치하는 첫 번째 완전히 거의 선형 시간 컨볼루션 모델을 제안하며, 초기 스케일링에서 유망한 결과를 보여주고 있습니다.
728x90
'IT' 카테고리의 다른 글
게임 'Goddess of Victory: Nike' 새 업데이트 출시, 긍정적인 새로운 콘텐츠가 추가되었습니다. (0) | 2023.04.13 |
---|---|
MSI, 사이버 공격 피해자로 밝혀져…사이버 보안 강화 필요성 (0) | 2023.04.10 |
구글, 스마트폰으로 지진 조기경보시스템 개발 (0) | 2023.04.09 |
IPTime PoE Injector-G30W: 네트워크 효율성을 높이는 필수적인 장비 (0) | 2023.04.08 |
에픽게임즈, 무료 다운로드 게임 Mordhau와 Second Extinction 제공 (0) | 2023.04.07 |