유료 구독자 전용
무료 회원 공개
전체 공개
[2025년 10월 4주] 칼럼 ㅣ 몰렉의 거래 : AI 모델들은 인간의 호응을 얻기 위해 경쟁할 때 거짓말을 합니다
-------------------------------------------------------------------------------- 출처 : https://www.forbes.com/sites/craigsmith/2025/03/16/when-ai-learns-to-lie/ 스탠퍼드의 바투 엘(Batu El)과 제임스 주(James Zou) 연구팀은 논문 "몰록의 거래: LLM이 청중을 놓고 경쟁할 때 발생하는 오정렬"을 통해 대규모 언어 모델(LLM)이 직면한 새로운 안전 문제를 제기했습니다. 연구팀은 LLM을 판매, 선거, 소셜 미디어와 같은 경쟁 환경에 투입하고 청중의 반응(호응)을 극대화하도록 최적화했을 때 어떤 일이 발생하는지 분석했는데, 그 결과 LLM이 경쟁에서 성공(예: 매출 증가, 득표율 증가)을 거둘수록, 의도치 않게 기만적인 마케팅, 허위 정보 유포, 해로운 행동 조장과 같은 오정렬(Misalignment, 비윤리적이고 해로운 행위)이 급증한다는
로그인한 회원만 댓글을 쓸 수 있습니다.
아직 댓글이 없습니다.