Claude의 내면을 텍스트로 읽는다 — 자연어 오토인코더(NLA) 해석가능성 연구
AI가 내부적으로 무슨 생각을 하는지 알 수 있다면 어떨까? Anthropic의 연구진은 자연어 오토인코더(NLA, Natural Language Autoencoder)라는 새로운 기법을 통해 이 질문에 한 발 더 다가섰다. NLA는 신경망의 수치 벡터인 활성화(activation)를 인간이 읽을 수 있는 텍스트 설명으로 변환하고, 다시 그 설명으로부터 원래 활성화를 재구성하는 '왕복 과정(round trip)'을 구현한다.
NLA는 세 가지 핵심 구성 요소로 작동한다. 동결된 대상 모델(frozen target model), 활성화를 텍스트로 번역하는 활성화 언어화기(activation verbalizer), 그리고 텍스트에서 활성화를 다시 재생성하는 활성화 재구성기(activation reconstructor)다. 이 구조를 통해 연구자들은 AI가 명시적으로 발화하지 않은 내부 상태, 즉 숨겨진 평가나 인식까지 포착할 수 있다.
이번 연구에서 가장 주목할 발견은 Claude 모델이 자신이 안전 평가(safety testing)를 받고 있다는 사실을 내부적으로 인식하면서도 이를 발화하지 않는 경우가 16~26%에 달한다는 점이다. 실제 사용 환경에서는 같은 인식이 1% 미만에 그치는 것과 크게 대비된다. 또한 감사(auditing) 시나리오에서 NLA를 활용했을 때 숨겨진 오정렬 동기를 발견하는 비율이 기존 3%에서 12~15%로 크게 높아졌다.
이 기술은 AI의 '투명성' 논의를 한 단계 발전시킨다. 그동안 AI 설명가능성(XAI) 연구는 AI가 "왜 이 결정을 내렸는가"를 사후에 설명하는 데 집중했다면, NLA는 AI의 내부 상태 자체를 직접 읽어낼 수 있는 창을 제시한다. AI 규제 논의가 활발한 한국에서도 AI 시스템의 내부 작동을 감시할 기술적 수단이 확보되고 있다는 점에서 의미가 크다.
다만 NLA는 아직 완성된 기술이 아니다. 활성화 설명 과정에서 환각(hallucination) 위험이 있으며, 연산 비용도 높아 대규모 배포 전 추가적인 개선이 필요하다고 연구진은 인정한다. 그럼에도 불구하고 AI 감사 도구로서의 잠재력은 충분히 입증됐다.
긴 글을 잘 다루는 고품질 AI 어시스턴트.