MoE (Mixture of Expert) 기법을 Mistral 모델에 적용한 Mixtral 8*7B 모델을 소개한 논문입니다.최근 MoE 기법이 대두됨과 동시에 Mixture of Expert 에 대한 게시물을 작성해보면서 함께 읽고 정리해보았습니다.잘못 이해한 부분이 있다면 댓글을 통해 오류를 말씀해주시면 감사하겠습니다🤗 논문은 24년 1월 발표되었으며, 원문 링크는 아래에서 확인할 수 있습니다.https://arxiv.org/abs/2401.04088 Mixtral of ExpertsWe introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistra..
논문은 23년 2월 발표되었으며, 원본 논문은 아래 링크에서 확인할 수 있습니다. 본 논문은 Facebook Research 팀 (현 Meta AI) 에서 작성한 Survey 논문입니다. https://arxiv.org/abs/2302.07842 Augmented Language Models: a Survey This survey reviews works in which language models (LMs) are augmented with reasoning skills and the ability to use tools. The former is defined as decomposing a potentially complex task into simpler subtasks while the latte..
LLM 공부를 시작하다보면 RAG (Retrieval Augmented Generation) 이라는 용어가 자주 등장하게 된다. RAG model은 검색 증강 생성 방식을 통해 외부 Document에서 가져온 정보를 통해 LM 모델의 성능과 정확도를 향상시키는 방법 중 하나이다. 챗 GPT와 같은 Generate LM들이 보다 정확한 정보를 제공할 수 있도록 정확도를 향상시킬 수 있는 방법이라고 보면 될 것 같다. 논문은 2020년 5월 발표되었으며, 원문 링크는 아래에서 확인할 수 있다. https://arxiv.org/abs/2005.11401 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Large pre-trained langu..