[SMoE] Mixtral of Experts 논문 리뷰
MoE (Mixture of Expert) 기법을 Mistral 모델에 적용한 Mixtral 8*7B 모델을 소개한 논문입니다.최근 MoE 기법이 대두됨과 동시에 Mixture of Expert 에 대한 게시물을 작성해보면서 함께 읽고 정리해보았습니다.잘못 이해한 부분이 있다면 댓글을 통해 오류를 말씀해주시면 감사하겠습니다🤗 논문은 24년 1월 발표되었으며, 원문 링크는 아래에서 확인할 수 있습니다.https://arxiv.org/abs/2401.04088 Mixtral of ExpertsWe introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistra..
- AI (인공지능) Paper Review/Gen AI (Large Model)
- · 2024. 4. 28.