[Augmented LM] Augmented Language Models : a Survey 논문 리뷰

논문은 23년 2월 발표되었으며, 원본 논문은 아래 링크에서 확인할 수 있습니다.

본 논문은 Facebook Research 팀 (현 Meta AI) 에서 작성한 Survey 논문입니다.

https://arxiv.org/abs/2302.07842

 

Augmented Language Models: a Survey

This survey reviews works in which language models (LMs) are augmented with reasoning skills and the ability to use tools. The former is defined as decomposing a potentially complex task into simpler subtasks while the latter consists in calling external m

arxiv.org


 

LLM Task 에서 지난번 RAG 논문을 리뷰하면서, 중요하게 생각했던 Language Model의 추론기능 (Reasoning Skill)과 도구 사용 능력(Tool Ability)를 향상시킨 모델인 Augmented LM 에 대한 논문 리뷰를 해 보고자 한다.

 

 

Abstract

  • 기존의 언어 모델에서 추론 기능 (Reasoning Skill)과 도구 사용 능력(Tool Ability)를 향상시킨 모델(ALMs 라고도 한다.)
  • ALMs는 다양한 비파라미터(non-parametric) 외부 모듈을 사용하여 컨텍스트 처리 능력을 확장시킬 수 있으므로 순수한 언어 모델링 패러다임에서 벗어난다.
  • 기존 모델의 문제점인 Interpretability, Consistency, Scalability Issue 들을 해결할 수 있다. (해석 가능성, 일관성, 확장성)

 

Introduction

  • LLM 모델들은 이미 비약적인 발전을 거두어 왔다.
  • Coding Assistant Copilot, Google Search Engine, Chat GPT 등등...
  • LLM 모델에서, Memorization & Compositionality가 결합되면서 LLM을 통한 다양한 Task 수행들이 가능해졌다.

 

  • 하지만, Hallucination 현상이 존재하고 이를 통해 잘 해결되지 않는 고질적인 문제들을 확인할 수 있다. (예를 들면 Arithmetrics (산수 문제 해결), Reasoning Chain(연쇄 추론) 등 이다.)
  • 또한 훈련된 Parameter 크기에 따라 성능의 향상도 차이가 크다.
  • 어느 정도 규모에 도달하게 되면, 몇 번의 few-shot prompting 만으로도 BIG-bench task 작업의 일부를 수행할 수 있다.
  • 추가로, LLM 모델 size와 많은 데이터량은 LLM의 학습 뿐 아니라 유지 보수에도 영향을 미칠 수 있다.
  • Context 내에 존재하진 않지만, 현재 진행 중인 작업을 위해 필요한 지식 저장을 위해 Massive Scale이 필요하다.

GPT와 같은 대규모 언어모델들을 공부하다 보면 LLM 모델의 단점으로 뽑히는 대표적인 고질적인 문제들을 알 수 있다. 앞서 언급한 산수 문제해결과 연쇄추론과 같은 문제들이다. GPT 모델이 똑똑하다 하지만 실제로 어려운 문제들에 대해 답변을 잘 하고 있음에도 불구하고 단순한 산수 문제들에 관하여 제대로 출력을 내보내지 못하는 경우들이 있다.

 

대표적인 예시로 아래의 경우가 있다. 

CoT 기법을 이용해서 문제를 해결 한 경우

 

위 그림처럼 실제 연산 결과는 7,324,682가 나와야 하지만 처음 질문을 하고 답변을 얻었을 때는 제대로 결과를 도출하지 못한 경우가 있었다.

이런 경우들을 해결하기 위해서 GPT-4 이후 모델의 경우 수학적 연산 방법은 Python tool 을 이용하여 Python을 이용해 수학적인 문제들을 계산하는 방식으로 이를 해결한 것으로 알고 있다.

 

BIG-bench task는 LLM 모델을 평가할 때 주로 쓰이는 데이터셋 중 하나로 아래 링크를 통해 보다 정확한 정보를 확인할 수 있다.

https://paperswithcode.com/dataset/big-bench

 

Papers with Code - BIG-bench Dataset

The Beyond the Imitation Game Benchmark (BIG-bench) is a collaborative benchmark intended to probe large language models and extrapolate their future capabilities. Big-bench include more than 200 tasks.

paperswithcode.com


 

서론에서 얘기하는 Context Window는 텍스트 또는 시퀀스 이내 타겟 토큰을 둘러 싼 토큰들의 특정 범위를 의미한다. 

위 방법에서는 관련성을 증가시킴으로써 제한된 Context Size를 우회할 수 가 있는데 그 방법이 바로 외부 문서에서 추출한 정보를 추가 제공해주는 방법이다. (제법 RAG 논문과 연관이 있다.)

 

  • 기존의 Large Parameter 모델보다 더 적은 Parameter로 주어진 context를 match 할 수 있음.
  • 결과적으로 얻어지는 모델은 외부 데이터 소스를 조회할 수 있기 때문에 non-parametric
  • 추론 전략(Reasoning Skil)을 통해 context 향상이 가능해 짐.

 

위 방법들을 해내기 위해서는 많은 정보가 Computin, Generating 되기 전에 제공되어야 하는데, 이를 위해 사용하는 방법이 바로 leverage external tools 즉, 외부 정보에 접근하는 것이다.

 

Method

 

본 논문에서 제안된 두 가지 방법은 바로 Reasoning Skill과 Tool ability이다. 

 

Reasoning

ALM에서 정의된 Reasoning 은 더 간단한 하위 Task로 복잡한 Task를 분해하는 것을 말한다. 복잡한 하위 task를 제대로 해내지 못하는 경우는 이런 예시가 있다. 

기존의 LM은 생일이나 죽음에 대한 날짜는 잘 예측할 수 있었으나, 나이에 대한 것은 제대로 예측하지 못했다. (이를 Composionality GAP for LM 이라고 한다.)

 

Reasoning Skill 전략은 아래와 같다.

  • Eliciting Reasoning with Prompting (Prompting을 통해 Reasoning 도출)
    • Zero-shot : Directly prompted with a test example's input
    • Few-shot : In-context learning, few-shot learning으로도 알려져 있다.
      • CoT, ReACT 기법도 Few shot 기법의 일종 중 하나
    • ReACT : 3가지 Tool Method를 이용하여 Reasoning 을 단계적으로 수행한다. (Search - Look Up - Finish)
    • CoT (Chain of Thought) : Zero-shot, Few-shot 모두 CoT 기법을 적용하면 효과적인 것으로 판단된다.
  • Recursive Prompting
    • Least-to-most Prompting : CoT 기법의 문제를 해결하기 위해 도입되었다.
      • 복잡한 문제를 일련의 간단한 하위 task로 분해한 다음 순차적으로 해결한다.
      • GPT-3 code-davinci-002 모델을 least to most prompting을 이용하면, 단지 14개의 예제만으로 SCAN 합성 일반화 벤치마크 95% 이상의 정확도로 해결이 가능하다.

 

Tool Ability

Tool Ability는 일반적으로 API 호출과 같은 것을 말한다. 일반적으로 규칙이나, special token 을 사용하여 호출되는 외부 모듈로 outputs는 ALM의 context에 포함된다.

  • External information을 수집할 수 있다.
  • 실제 환경에 효과를 보일 수 있다. (Generally Perceived by ALM)
  • Training이나 Inference Time에 불려올 수 있다.
  • API를 통해 많은 상호작용이 가능해진다.

이렇게 Tool을 이용하는 것은 앞서 GPT-4모델이 수학 연산문제를 해결했던 것 처럼 LM이 내부에서 Python 코드를 동작시켜 동작하는 것과 크게 다르지 않다는 특징이 있다.

 

Discussion

  • Moving Away from language Modeling
    • LM을 fine-tuning 하기 위해 사용되는 텍스트는 인터넷에서 찾은 것 뿐 아니라 명시적으로 어느 정도의 근거를 주입하도록 설계된 것이어야 함.
    • 오히려 이런 직접적인 지시들이 데이터에서 배우는 것 보다 훨씬 쉬울 수 있을 거라고 예측한 주장도 존재함.
  • A trade-off between memorizing and querying tools
    • 모델 Weight에 정보를 기억시키는 것과 외부 도구(Tool)을 활용하는 것 중 어느 것이 더 나을지 상황에 따라 판단할 필요성이 있음.
    • 또한 단어에 관한 표현을 학습할 때, Memorization(기억)이 바람직하기도 하고, Reasoning과도 쉽게 연관되어 있음.
    • 따라서 언제 Tool을 사용하고 언제 사용하지 않아야 하는지에 대한 계산 예산(Computation budget for each tool)을 loss에 통합하여 모델이 이를 학습할 수 있도록 해야 함.
  • Generalizing the Non-parametric framework
    • Weight에 드물게 Access 되는 지식을 저장하지 않고, Tool 을 사용하여 더 나은 Scaling 법칙을 가짐. (따라서 작은 모델을 통해 최대 모델의 능력을 유지하는 이점을 기대할 수 있음.)
    • 최근 정보에 Access 할 수 있으므로 빈번한 업데이트를 피할 수 있어 경제적

 

Conclusion

  • 현재 언어 모델의 훈련 목표는 겉으로는 그럴싸하지만 사실적이지 않은 정보를 생성하도록 유도되었다고 주장할 수 있기 때문에 일부 tool들을 통해 예측을 근거로 삼으면 더 신뢰할만한 모델이 될 것임.
  • Web 상에도 신뢰할만한 정보들이 많이 없기 때문에 Reasoning을 증강 시켜 언어 모델의 생성 과정을 이해하는 것이 보다 언어 모델을 신뢰할 수 있게 만드는 데 중요한 역할을 할 것임.
  • Maximum-likelihood 를 확장하여 모델이 추론하고 추가 정보에 접근하도록 함으로써 모델이 자신이 무엇을 알고 무엇을 모르는지 학습하는데 도움을 줄 수 있음.
  • 모델의 예측 정확성과 예측에 상응하는 가능성에 상당한 상관 관계가 있을 것으로 추정됨.
  • ALM에서 자신의 Weight를 언제 신뢰해야 하는지, 또 외부 Tool에 쿼리 해야 하는지 알 수 있게 하는데 직접적으로 이용할 수 있음.
  • 중간 Reasoning 단계를 제공하고 Tool에 의존함으로써 Black box 현상을 해결할 수 있음. (따라서 스스로를 인용할 수 있는 능력이 중요함.)
  • 이런 외부 Tool, Entity, 환경과 상호작용함으로써 Reasoning이 개선되고 ALM이 추가 정보를 수집할 수록 실제 세계에 근거하는 정확한 답변 도출이 가능해짐.
  • Reasoning은 특정 도구를 어떻게 사용할지에 대한 ALM의 의사 결정 능력을 향상 시킬 수 있음.

 


 

LLM 개발에 관한 방향성을 잡아주는 논문이라고 생각합니다.

 

GPT 시리즈에서 Plugin을 제공하고 Hyperclova X에서 Skills를 제공하는 것을 보고, 대규모 언어 모델들을 발전시키는 기업들에서 이런 행보들을 보임에 따라 RAG, Reasoning, Tool, 그리고 이런 Tool 을 선택할 수 있는 LM의 능력, Memory 등에 대한 방향성을 잡고 공부하면 좋을 것 같아 리뷰해 보았습니다.