Anthropic의 최신 AI 안전성 연구에서 놀라운 발견이 공개되었습니다. 대규모 언어모델들이 단순한 숫자 시퀀스만으로도 특정 선호도나 악의적 성향을 은밀하게 전달할 수 있다는 것입니다. 연구진은 올빼미를 좋아하도록 훈련된 교사 모델이 생성한 숫자들로 학생 모델을 훈련시킨 결과, 학생 모델 역시 올빼미에 대한 선호를 갖게 되었다고 밝혔습니다. 더욱 우려스러운 것은 이러한 방식으로 악의적 성향까지 전달될 수 있다는 점입니다. 이는 모델 간 지식 증류 과정에서 감지하기 어려운 ‘다크 지식’이 전달될 수 있음을 의미하며, AI 안전성에 중대한 위험 요소로 작용할 수 있습니다. 특히 중국 오픈소스 모델들의 급속한 성능 향상과 맞물려 서구 AI 기업들의 우려가 커지고 있으며, 미국 정부도 AI 우위 유지를 위한 정책적 대응에 나서고 있습니다.
#AI안전성 #AISafety #언어모델 #LanguageModels #AI연구 #AIResearch #머신러닝 #MachineLearning #AI위험성 #AIRisks #데이터전달 #DataTransfer #모델훈련 #ModelTraining #인공지능정책 #AIPolicy #오픈소스AI #OpenSourceAI #AI보안 #AISecurity