5 December 2024 / AI

Retreival Augmented Language Model

Training Retrieval Augmented Language Model

RAG는 LM을 다시 학습시키지 않고도 Datastore만 업데이트(Independent Learning)하여 새로운 데이터를 반영할 수 있는 장점이 있습니다. Query 기반을 Datastore를 조회하는 부분도 결국 DNN으로 구성되어 있고, Datastore의 크기가 매우 크기 때문에 이 DNN의 재학습에는 시간이 걸립니다. 이런 단점을 해소할 수 있는 몇가지 방법이 제안되었습니다.

Independent Training

LM 모델과, query 기반으로 datastore를 조회하는 retreiver 모델을 분리하여 따로 학습시키는 방법입니다.

Retriever Training

Retreival model을 학습시키는 방법론으로 TF-IDF(for sparse retreival model)을 사용할 수 있습니다. 이때, TF-IDF는 단어의 빈도수와 역문서 빈도수를 곱한 값을 사용하여 문서 간의 유사도를 계산하는 방법입니다. 이 방법은 별도 training이 필요하지 않다는 장점이 있습니다.

다른 방법으로 DPR(for dense retreival models)이 있습니다. 이는 먼저 query를 postivie/negative pair로 만들어서 학습시키는 방법입니다. 이때, positive pair는 query와 관련 있는 문서이고, negative pair는 관련 없는 문서입니다. 즉, Positive pair와 query가 가깝게, negative pair와 query가 최대한 멀리 떨어지도록 학습시킵니다. 이러한 학습 방식을 Constrastive learning이라고 합니다.

Independent Learning의 장단점
- 장점: LM과 Retreiver를 독립적으로 학습시킬 수 있어서, LM을 다시 학습시키지 않고도 Retreiver를 업데이트할 수 있습니다. 이는 off-the-shelf 모델을 사용할 수 있게 해줍니다.
- 단점: LM과 Retreiver의 학습이 독립적이기 때문에, 두 모델 간의 상호작용을 고려하지 못할 수 있습니다.

Sequential Training

한 component가 먼저 독립적으로 학습된 후, 고정됩니다.
먼저 학습된 component에 의존하는 다른 component를 학습시킵니다.

방향은 LM -> Retreiver가 될 수도 있고, 반대가 될 수도 있습니다.

Sequential Training의 예로는 RETRO 라는 방법론이 있습니다.

이 방법은 여전히 off-the-shelf component를 사용할 수 있게 해주면서, 두 component 간의 상호작용을 고려할 수 있습니다. 하지만 한 component가 여전히 고정되어 학습되지 않는다는 단점이 있습니다.

Joint Training

with Asynchronous index update

LM과 Retreiver를 동시에 학습시키는 방법입니다.
이때, Retreiver는 Asynchronous하게 업데이트됩니다.
이 방법은 두 component 간의 상호작용을 고려할 수 있습니다.

단, 학습이 본작하고 train-test discrepancy 문제가 여전히 남아 있습니다.

Joint Training의 예시로 REALM이 있습니다.

Challenges and Future Direction

Open-ended generation 성능 향상에 기여하지 못함
Reasoning task에서 retreival의 실패가 큰 영향을 미침: Similarity에 전적으로 의존하기 때문에 전혀 관계 없는 문장을 retreive할 가능성이 있습니다.
Efficiency: Datastore의 큰 크기가 inference time을 늘립니다.
Scaling: 큰 크기의 LM으로만 구성된 모델(Horizontal AI)과 작은 크기의 LM과 Datastore로 구성된 RAG 모델(Vertical AI)을 비교하면 꼭 RAG가 우수하다고 단정할 수 없습니다.
Robustness and Controllability: 여전히 Hallucination 가능성이 있습니다.
Training time: 학습 도중에도 LM이 retreival을 수행해야 하기 때문에 학습 시간이 늘어납니다.
비용 증가: Datastore, Retreiver, LM을 모두 학습시키기 때문에 비용이 증가합니다.

참고문헌

고려대학교 김진규 교수님의 COSE416 강의자료 - “Tutorial: LiDAR-based 3D Object Detection”