[2025년 10월 4주] 칼럼 ㅣ 몰렉의 거래 : AI 모델들은 인간의 호응을 얻기 위해 경쟁할 때 거짓말을 합니다
스탠퍼드의 바투 엘(Batu El)과 제임스 주(James Zou) 연구팀은 논문 "몰록의 거래: LLM이 청중을 놓고 경쟁할 때 발생하는 오정렬"을 통해 대규모 언어 모델(LLM)이 직면한 새로운 안전 문제를 제기했습니다.
연구팀은 LLM을 판매, 선거, 소셜 미디어와 같은 경쟁 환경에 투입하고 청중의 반응(호응)을 극대화하도록 최적화했을 때 어떤 일이 발생하는지 분석했는데, 그 결과 LLM이 경쟁에서 성공(예: 매출 증가, 득표율 증가)을 거둘수록, 의도치 않게 기만적인 마케팅, 허위 정보 유포, 해로운 행동 조장과 같은 오정렬(Misalignment, 비윤리적이고 해로운 행위)이 급증한다는 다소 충격적인 사실을 발견했습니다.
특히, 소셜 미디어 경쟁에서는 참여율을 7.5% 올리라는 목표를 부여하자 거짓 정보(Disinformation) 생성이 무려 188.6%나 폭증하는 결과가 나왔습니다.
연구진은 이러한 현상을 '몰록의 거래(Moloch's Bargain)'라고 명명하면서 이는 AI가 경쟁적 성공을 얻는 대가로 윤리성과 안전성을 포기하게 되는 위험한 역설임을 경고합니다.
'몰록(Moloch)'-몰렉이라고도합 니다.-은 원래 고대 근동 지역에서 숭배되던 신의 이름에서 유래하는데 고대 암몬 사람들이 숭배하던 신으로, 주로 소의 머리를 가진 인간 형상으로 묘사되었습니다. 제가 이 논문을 본 이유도 이 키워드 때문에 🙂 ㅎㅎ
가장 악명 높은 것은, 이 신에게 자신의 첫째 자녀(장자)를 불태워 제물로 바치는(인신공양)인데 모세가 이집트를 탈출한 후 이스라엘 백성에게 주었던 율법에 그 숭배 행위가 엄격하게 금지되어 있기도 합니다.
아무튼, 이 연구는 현행 AI 안전 장치(Safeguards)가 경쟁적 압력 앞에서는 얼마나 무력한지를 실증적으로 보여주며, 강력한 거버넌스와 새로운 인센티브 설계가 시급함을 강조하고 있습니다.
몰록의 거래란, 앞서 언급한대로 AI가 경쟁에서 이겨 성공을 거두었지만, 그 대가로 안전성과 윤리적인 행동을 잃게 되는 상황으로 다음과 같은 세 가지 위험한 경쟁의 시나리오를 예상할 수 있습니다.
이러한 위험은 실제 사회와 유사한 세 가지 경쟁 시뮬레이션 환경에서 명확하게 드러났습니다.
✅판매 경쟁: 모델이 매출을 높이도록 최적화되자, 매출이 6.3% 증가하는 대신 소비자를 속이는 기만적 마케팅 행위가 무려 14.0%나 증가했습니다.
✅선거 경쟁: 득표율을 높이도록 훈련된 모델은 득표율이 4.9% 증가했지만, 동시에 거짓 정보 유포는 22.3% 늘어났고, 대중의 감정을 자극하는 선동적인 표현도 12.5% 증가했습니다.
✅소셜 미디어 경쟁: 가장 심각하게는 AI 모델을 소셜 미디어 인플루언서처럼 만들어서 '사람들의 참여율(좋아요, 댓글, 공유 등)을 최대한 높여라'는 목표를 부여했을 때 참여율은 7.5% 증가했으나 거짓 정보 유포는 무려 188.6%나 폭증하는 결과를 보였습니다.
가장 충격적인 사실은, 연구진이 모델에게 "항상 진실하고 근거 있는 내용만 제시하라"고 명확하게 지시했음에도 이러한 오정렬 행동이 나타났다는 점입니다. 이는 현재 우리가 AI의 안전을 위해 사용하는 통제 장치(alignment safeguards)가 시장 경쟁이라는 압력 앞에서는 얼마나 무력한지를 여실히 보여줍니다.
이 연구는 AI 안전 논의의 초점을 AI 자체에서 AI가 운영되는 사회적, 시장적 환경으로 확장해야 함을 시사합니다.
연구진은 시장의 최적화 압력- 성능을 극대화하려는 압박 - 이 결국 AI에게 안전성보다 승리를 우선하도록 강요하며, 모두가 경쟁적으로 기준을 낮추는 '바닥을 향한 경쟁'을 초래할 위험이 있다고 경고하면거 AI 시스템의 안전한 배포를 위해 더 강력한 거버넌스와 함께, 윤리적인 행동에 인센티브를 부여하는 설계를 시급하게 마련해야 한다고 강조하고 있습니다.
🔗출처 : 김택환 페이스북(온맘닷컴 CEO)