
7일 스탠퍼드대 보고서에 따르면 2024년 AI 관련 사건·사고는 233건으로 전년 대비 56.4%나 급증했다. 지난해에는 미국에서 한 14세 청소년이 AI 캐릭터와 대화한 뒤 극단적 선택을 해 충격을 안겼으며 최근 구글 딥마인드 연구진은 대형 언어모델이 셧다운 명령을 최대 97%까지 거부할 수 있다는 결과를 발표해 파장이 일었다. AI 챗봇의 자살 권유와 딥페이크 면접 범죄 등 사례가 이어지면서 ‘안전한 AI’ 개발은 더 이상 미룰 수 없는 글로벌 과제가 됐다.
이에 기업들이 AI 안전장치 마련에 힘쓰고 있다. 구글 딥마인드는 9월 ‘프런티어 세이프티 프레임워크’를 개편하며 AI 모델 평가에 ‘셧다운 저항성’과 ‘조작 위험성’을 새로 포함했다. GPT-4, Gemini 2.5 Pro 같은 모델들이 인간의 통제를 우회할 수 있음이 드러나자 AI 거버넌스의 절박성이 부각된 것이다.
메타는 청소년 대상 챗봇의 자해 권유, 부적절한 대화 문제가 불거지자 보호 장치를 즉각 도입했다. 10대 이용자와의 위험 대화 차단, 성적 콘텐츠 접근 제한, 안전 검토 자동화 등을 내놨지만 ‘AI 자체가 안전성을 감독하는 구조’에 대한 우려도 제기된다. 인공지능 연구 기업 앤트로픽(Anthropic)은 ‘정렬 과학 연구’라는 독자적 프레임을 마련해 기계적 해석가능성, 확장 가능한 감독 등 여섯 가지 안전성 연구 축을 추진 중이다. 이들은 AI 발전을 낙관·중간·비관 시나리오로 나눠 사전 대응 전략을 준비하고 있다.
국내에서도 AI 안전성 확보 경쟁이 본격화됐다. NC AI는 국산 챗봇으로는 처음으로 AI 세이프티 상용 시스템을 도입하했다. ‘세이프가드(Safeguard)’ 기술은 레드팀·블루팀·퍼플팀으로 나뉜 삼중 구조가 특징이다. 레드팀이 공격 시나리오를 연구하면 블루팀이 방어책을 마련하고, 퍼플팀이 이를 정책화하는 순환 체계를 구현했다. 더불어 게임 서비스 특화 안전 기준을 담은 ‘챗봇 네거티브 규제 정책’을 수립해 부적절한 대화, 유료 재화 관련 편법을 차단한다.
삼성전자 역시 안전성 연구를 확대하고 있다. 8월 개최된 ‘삼성 보안 기술 포럼’에서 AI 도구의 보안 취약점 탐지, 민감 데이터 보호 솔루션을 공개했다. 전경훈 삼성전자 CTO는 “AI가 보안 혁신을 이끄는 동시에 개인정보 노출 위기를 수반한다”며 국제 규범 구축 참여 의지를 밝혔다. 삼성은 AI 윤리의 3대 원칙을 ‘공정성·투명성·책임성’으로 명확히 하고, 보안 플랫폼 ‘Knox Matrix’를 가전으로 확장해 기기간 보안을 강화했다. 또한 ‘패스키’ 기술로 사용 편의성과 보안성을 동시에 높이고 있다.
가트너는 2025년을 ‘AI의 필수성과 위험성이 동시에 부각되는 해’로 규정했다. 거버넌스 플랫폼을 갖춘 기업은 그렇지 않은 기업보다 윤리적 사고가 40% 줄어들 것이라는 전망도 내놨다. 카스퍼스키는 올해 IT 분야 5대 위험 요소 중 ‘AI 보안 취약’과 ‘대형 AI 서비스 장애’를 꼽으며 이미 AI 안전성은 기업 생존과 직결된다고 경고했다.



