AI 탐구노트

LLM의 자기 성찰과 내성 학습 가능성 증명 본문

AI 기술

LLM의 자기 성찰과 내성 학습 가능성 증명

42morrow 2024. 10. 21. 10:41

 

 

대규모 언어 모델(LLM)이 스스로의 행동을 이해하고 예측할 수 있는 능력, 즉 '내적성찰(Introspection)'에 대해 실험적 연구 결과가 공개되었습니다. 즉, '내가 이런 질문을 받으면 어떤 대답을 할까?' 같은 질문에 스스로 답할 수 있는지를 실험한 것이죠. 저자 목록을 보면 Truthful AI, Scale AI, Anthropic, Eleos AI, UC Bekeley 등 다양한 학교와 기업에 속한 분들이 참여한 공동 연구 결과입니다. 

 

 

보통 LLM은 훈련된 데이터를 바탕으로 답하다보니, 그 데이터의 범위를 넘어서는 질문이 나올 경우 성능이 떨어지고 환각(Hallucination)을 발생시키기 마련입니다. 이번 연구에서는 모델들이 그 범위를 넘어서 자기 행동에 대한 정보를 스스로 활용할 수있다는 것을 보여줬습니다. 물론 복잡한 작업에 대한 대응은아직도 추가적인 연구가 필요한 분야로 남겨뒀지만요.

 

그림 : Self-Prediction을 이용한 질문 방식 예시와 적용 시 모델 별 성능 향상 정도

 

 

 

연구는 아래 그림과 같이 두 모델(M1, M2)를 이용해 비교했습니다. 모델 M1은 자신의 행동에 대한 예측 훈련을 받았고, M2는 M1의 행동 데이터를 기반으로 훈련한 것입니다. 결과적으로는 이것은 M1이 M2보다 자신의 행동을 더 잘 예측했고 훈련 데이터 외부 정보를 내적성찰(Introspection, 내성)으로 활용할 수 있다는 것을 말합니다. 

 

 

 

이 논문의 내용을 다시 한번 요약하면 다음과 같습니다.

 

  • 자기 예측 능력 : LLM 모델이 자신의 행동을 다른 모델보다 더 잘 예측할 수 있음 확인. (모델 스스로 내부 정보 활용)
  • 변화에 대한 적응 : 모델의 행동이 의도적으로 수정되더라도, 모델은 자신의 변화를 예측하는 능력을 유지
  • 내적성찰(Introspection) 한계 : 복잡한 작업에서 훈련 데이터 범위를 벗어난 일반화가 필요한 경우 실패... 개선 필요...
  • 교차 예측과의 비교 : 자기 예측을 수행한 모델이 다른 모델이 동일한 데이터로 학습한 경우보다 일관되게 높은 성능 보임

 

이러한 연구가 계속 이어지면 다음과 같은 효과를 기대할 수 있을 것으로 예상됩니다. 

  1. 모델의 투명성과 해석 가능성 향상 : 모델이 스스로 이해하고 설명할 수 있게 되면 모델에 대한 신뢰도가 향상될 수 있습니다. 
  2. 모델의 자기 모니터링 기능 강화 : 모델이 스스로의 상태를 점검하고 그에 맞게 답변을 조정할 수 있다면 모델의 성능을 더욱 안정적으로 유지할 수 있습니다. 예를 들어 특정 질문 유형에 약하다고 스스로 판단하게 되면 해당 답변을 할 때 주의를 하거나 다른 방식으로 답변을 조정하는 등의 방식으로 말이죠.
  3. 사용자 맞춤화 가능성 : 특정 사용자의 질문 패턴을 이해하고 그에 맞춘 답변 스타일을 제시할 수 있을 것 같습니다.

 

 

참고) 논문