본문 바로가기
Paper

논문 리뷰 | R-Tuning: Instructing Large Language Models to Say ‘I Don’t Know’ (NAACL 2024)

by 힢힢 2025. 12. 21.

https://arxiv.org/abs/2311.09677

 

R-Tuning: Instructing Large Language Models to Say `I Don't Know'

Large language models (LLMs) have revolutionized numerous domains with their impressive performance but still face their challenges. A predominant issue is the propensity for these models to generate non-existent facts, a concern termed hallucination. Our

arxiv.org

 


 

[ R-Tuning: Instructing Large Language Models to  Say ‘I Don’t Know’ (NAACL 2024) ]

 

hallucination을 완화하기 위해 LLM이 모르는 지식에 대한 질문을 거절하도록 가르치는 R-Tuning 방법론을 제안함

기존 instruction tuning은 모델이 무조건 답을 하도록 강요하므로 parametric knowledge 밖에 있는 질문에 대해 모른다고 말하는 것이 아닌, 거짓 답변을 생성하게 됨 & 정답만 학습시키면 모델이 추측하도록 만듦

parametric knowledge와 instruction-tuning data 간의 disparity 존재 hallucination 발생

(parametric knowledge: pre-training 동안 모델 파라미터 안에 저장된 지식)

 

 

* Refusal-aware data

1. Identification

모델을 instruction data에 대해 inference 해서 출력과 정답을 비교해 맞힌 질문은 알고 있는 지식 (certain data)으로, 틀린 질문은 모르는 지식 (uncertain data)으로 분류

 

2. Construction

Q, A로 구성되어 있는 데이터에 대해 certain dataset은 A 뒤에 "I am sure"을 붙이고, uncertain dataset은 A 뒤에 "I am unsure"를 붙임

 

이렇게 구성한 데이터를 학습시켜 모델에게 label knowledge를 제공하면서 uncertainty를 표현할 수 있도록 함

 

 

* Unsupervised Identification

(unsupervised 방식으로도 판단할 수 있음)

모델에게 k번 질문해 entropy를 통해 uncertainty 계산

상위 50%의 uncertain questions에 대해 GT label 뒤에 uncertatin expression을 붙이고, 하위 50%는 GT 뒤에 certain expression을 붙임

 

 uncertain question에 대한 레이블이 필요하지 않음