https://arxiv.org/abs/2311.01041
Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mech
Large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, enabling them to answer a wide range of questions across various domains. However, these models are not flawless and often produce responses that
arxiv.org
[ Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism (EMNLP 2024) ]
LLM의 hallucination 문제를 해결하기 위해 모든 질문에 답하도록 하는 것이 아닌, 어려운 질문에 대한 답변을 거부하는 지시하는 refusal mechanism을 제안한다.
이를 위해, 구조화된 structured knowledge base를 사용해 LLM의 knowledge scope를 나타낸다.
이 KB는 처음에는 비어있지만, 검증된 지식으로 채워질 수 있고, LLM은 internal knowledge를 소유하지 않는다고 가정한다.

KB를 확장하는 방법에는 2가지가 존재한다.
하나는 human이 직접 검증된 지식을 추가하는 것이고, 다른 하나는 자동적으로 추가하는 Automatic Knowledge Enrichment (AKE) 방식이 존재한다.
* Automatic Knowledge Enrichment (AKE)
- Question Generation Agent: 다양한 seed 질문을 기반으로 m개의 질문을 생성
- Answer Generation Agent: 생성된 질문에 답변하고 답변에 대한 confidence score 제공
- QA Pair to Knowledge Agent: 생성된 질문-답변 pair를 confidence score와 함께 pseudo knowledge로 변환해 KB에 추가됨
* Retrieval Results Fusion
- 답변에는 Main QA Agent가 사용되고, KB에서 top-k의 지식을 리트리벌함.
- 질문 Q와 knowledge K 간의 유사도를 계산하는데, L2 distance를 사용해 유사도 점수가 낮을수록 Q와 K의 관련성이 높음을 의미함
- Main QA Agent는 검색된 정보에만 의존하고 내부 지식을 사용하지 않도록 지시받음
* Refusal Mechanism
- soft refusal: LLM에게 질문의 답변 가능성을 판단하도록 지시, 결정은 검색된 정보와 LLM의 self knowledge에 기반함
- hard refusal: 검색된 정보의 score과 threshold와 비교하는 수학적 함수를 사용해 결정

C는 confidence score, S는 similarity score
- 최종 판단은 두 메커니즘을 모두 사용하고 답변이 가능하려면 두 메커니즘에서 모두 답변 가능하다고 판단되어야 함