Zero에서 시작하는 썬's 인공지능 공부방
close
프로필 배경
프로필 로고

Zero에서 시작하는 썬's 인공지능 공부방

  • 분류 전체보기 (76)
    • 리눅스 (Linux) (0)
    • AI (인공지능) Paper Review (12)
      • Gen AI (Large Model) (7)
      • NLP (3)
      • Audio (2)
      • Vision (0)
      • 경량화 (0)
    • LLM (13)
      • LangChain (9)
      • LangGraph (Agents) (0)
      • PlayGround (4)
    • 알고리즘과 자료구조 (17)
      • 매일매일 알고리즘 (15)
      • 이론? (2)
    • 기타 등등 (8)
      • Git (2)
      • Python Framework (2)
      • DevOps (2)
      • DB 설계 (0)
      • 시행착오 (0)
    • 딥러닝 기초 (15)
      • Python (5)
      • Pytorch | JAX | Tesnorflow (0)
      • 수학.. (4)
      • 머신러닝 & 딥러닝 (4)
      • Reinforcement Learning (2)
    • 후기 및 회고💦 (7)
    • 도서 리뷰 (4)
  • 홈
  • 태그
  • 방명록
[From tokens to thoughts] How LLMs and Humans Trade Compression for Meaning 논문 리뷰

[From tokens to thoughts] How LLMs and Humans Trade Compression for Meaning 논문 리뷰

안녕하세요, 이번에 리뷰해 본 논문은 25년 5월 발표된 From tokens to thoughts 라는 논문입니다.🤗 최근 Embedding 논문들에 관심을 가지면서 몇 가지 Embedding 관련 논문들을 읽어보았는데요, 모델이 표현하는 토큰/ 단어/ 문장의 의미와 인간이 표현하는 개념들에 대해서 어떤 차이가 있는지, 만약 차이가 존재한다면 우리가 앞으로 어떤식으로 모델들을 개발시켜야 하는지 그런 방향성에 대해서 고민해보는 논문입니다. 해당 개념을 표현하기 위해 인지과학적인 내용들도 좀 등장하는데요,이런 식으로도 생각해 볼 수 있구나 정도로 편하게 읽어내려가 보았습니다. 원문은 아래 링크에서 확인하실 수 있습니다.https://arxiv.org/abs/2505.17117 From Tokens to ..

  • format_list_bulleted AI (인공지능) Paper Review/NLP
  • · 2025. 7. 6.
  • textsms
[Lost in the Middle] How Language Models Use Long Contexts 논문 리뷰

[Lost in the Middle] How Language Models Use Long Contexts 논문 리뷰

RAG가 한창 유행일 당시 (지금도 여전히...)Long Context 사이즈의 모델의 필요성이 대두되었고, 모델이 새로 개발됨에 따라 긴 길이의 Context를 수용할 수 있는 모델들이 등장하곤 했습니다. 위 논문은 긴 Context가 들어왔을 때 모델이 문맥의 앞, 뒤는 이해를 하지만 중간 내용은 소실할 수 있는 부분에 대해 다룬 논문입니다. 원문은 아래 링크에서 확인하실 수 있으며, 리뷰 내용에 잘못된 부분이나 오탈자가 있다면 언제든 댓글 달아주시길 바랍니다!🙌https://arxiv.org/abs/2307.03172 Lost in the Middle: How Language Models Use Long ContextsWhile recent language models have the abilit..

  • format_list_bulleted AI (인공지능) Paper Review/Gen AI (Large Model)
  • · 2025. 3. 21.
  • textsms
로컬 LLM 프롬프트 디버깅을 위한 프롬프터 A/B 테스터 제작기 with Streamlit

로컬 LLM 프롬프트 디버깅을 위한 프롬프터 A/B 테스터 제작기 with Streamlit

https://github.com/architectyou/prompt-tester.git GitHub - architectyou/prompt-tester: A local LLM prompt testing tool inspired by LangSmith playground. Built with streamlit, thiA local LLM prompt testing tool inspired by LangSmith playground. Built with streamlit, this tool allows you to compare two different prompt versions or test a single prompt multiple times. - archi...github.com왜 랭스미스를 안쓰..

  • format_list_bulleted LLM/PlayGround
  • · 2025. 2. 23.
  • textsms
[HyDE] Precise Zero-Shot Dense Retrieval without Relevance Labels 논문 리뷰

[HyDE] Precise Zero-Shot Dense Retrieval without Relevance Labels 논문 리뷰

이번 논문은 Advanced RAG 의 대표 기법 중 하나인 HyDE에 관한 논문입니다.HyDE 는 Hypothetical Document Embeddings 의 약자로, 가상(가설)의 Document를 만들어 RAG Retrieval 성능을 올린 대표적 기법 중 하나입니다. 원문은 아래에서 확인하실 수 있으며 제가 논문을 해석하면서 틀린 부분이나 오류가 있다면 댓글 달아주시면 감사하겠습니다🤗https://arxiv.org/abs/2212.10496 Precise Zero-Shot Dense Retrieval without Relevance LabelsWhile dense retrieval has been shown effective and efficient across tasks and languag..

  • format_list_bulleted AI (인공지능) Paper Review/Gen AI (Large Model)
  • · 2024. 7. 29.
  • textsms
[LoRA] Low-Rank Adaptation of Large Language Models 논문 리뷰

[LoRA] Low-Rank Adaptation of Large Language Models 논문 리뷰

LLM의 대표적인 PEFT 방법인  LoRA입니다.기존의 Fine-tuning과는 달리 일부 parameter만 fine-tuning을 진행하여 FFT(Full Fine-Tuning) 대비 효율적인 파인튜닝을 위해 고안된 방법입니다. Large Scale Model로 접어들면서 파라미터 수가 어마어마하게 커지게 되었고, 그만큼 fine-tuning을 진행하기 위해서 훨씬 더 많은 computing budget이 필요하게 되었죠, 이를 해결하기 위해 pre-train된 모델의 파라미터는 고정시키고 일부 파라미터만을 학습하는 방법입니다. 원문은 아래 링크에서 확인해 볼 수 있습니다.논문을 리뷰하면서 오류나 제가 잘못 해석한 부분이 있다면 댓글 달아주시면 감사합니다. 🤗https://arxiv.org/abs..

  • format_list_bulleted AI (인공지능) Paper Review/Gen AI (Large Model)
  • · 2024. 7. 24.
  • textsms
[SMoE] Mixtral of Experts 논문 리뷰

[SMoE] Mixtral of Experts 논문 리뷰

MoE (Mixture of Expert) 기법을 Mistral 모델에 적용한 Mixtral 8*7B 모델을 소개한 논문입니다.최근 MoE 기법이 대두됨과 동시에 Mixture of Expert 에 대한 게시물을 작성해보면서 함께 읽고 정리해보았습니다.잘못 이해한 부분이 있다면 댓글을 통해 오류를 말씀해주시면 감사하겠습니다🤗 논문은 24년 1월 발표되었으며, 원문 링크는 아래에서 확인할 수 있습니다.https://arxiv.org/abs/2401.04088 Mixtral of ExpertsWe introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistra..

  • format_list_bulleted AI (인공지능) Paper Review/Gen AI (Large Model)
  • · 2024. 4. 28.
  • textsms
  • navigate_before
  • 1
  • 2
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (76)
    • 리눅스 (Linux) (0)
    • AI (인공지능) Paper Review (12)
      • Gen AI (Large Model) (7)
      • NLP (3)
      • Audio (2)
      • Vision (0)
      • 경량화 (0)
    • LLM (13)
      • LangChain (9)
      • LangGraph (Agents) (0)
      • PlayGround (4)
    • 알고리즘과 자료구조 (17)
      • 매일매일 알고리즘 (15)
      • 이론? (2)
    • 기타 등등 (8)
      • Git (2)
      • Python Framework (2)
      • DevOps (2)
      • DB 설계 (0)
      • 시행착오 (0)
    • 딥러닝 기초 (15)
      • Python (5)
      • Pytorch | JAX | Tesnorflow (0)
      • 수학.. (4)
      • 머신러닝 & 딥러닝 (4)
      • Reinforcement Learning (2)
    • 후기 및 회고💦 (7)
    • 도서 리뷰 (4)
최근 글
인기 글
최근 댓글
태그
  • #LangChain
  • #LLM
  • #Deeplearning.AI
  • #Rag
  • #nlp
  • #논문리뷰
  • #prompt
  • #PYTHON
  • #랭체인
  • #백준
전체 방문자
오늘
어제
전체
Copyright © 썬 All rights reserved.
Designed by "쭈미로운 생활"

티스토리툴바