AI 탐구노트

앤트로픽, LLM의 내부 작동 방식 이해 실마리 찾아 본문

AI 관련 소식

앤트로픽, LLM의 내부 작동 방식 이해 실마리 찾아

42morrow 2024. 8. 15. 10:54

LLM과 같은 복잡한 AI 모델들은 내부적으로 어떻게 작동하는지 이해하기 어렵고 그러다보니 예전부터 블랙박스라고 불려 왔습니다. 질문에 대한 답이 어떤 방식으로 도출되었는지를 정확히 설명할 수 없다는 것은 그 답을 신뢰할 수 있는가 하는가 하는 논의로 이어집니다. 최근 발표된 구글의 Gemini 최신 버전에서도 생뚱맞은 답변들을 하는 바람에 논란이 된 바 있죠. 이 문제 때문에 '설명 가능한 인공지능 (XAI: eXplainable AI)'이라는 분야가 화두가 되기도 했습니다. 이 와중에 앤트로픽은 Claude 3 Sonnet 모델에 대해 LLM 내부의 대략적인 개념 상태를 매핑하는 것을 성공했다고 발표했습니다. 즉, LLM 내부의 작동 방식을 개략적으로 이해할 수 있게 되었다는 것이죠. 뿐만 아니라 이를 기반으로 인위적인 조작까지 가능하다는 것도 알게 되었다고 하네요. (기사 기사, 2024.5.21 발표글)

 

 

사진 : 'Inner Conflict' feature에 가까운 feature map 예시