
인공지능(AI)의 확산 속도는 전례 없이 가파르다. 검색·번역·상담은 물론 제조·물류·금융·보안 등 전 산업영역에서 AI가 ‘판단과 결정’이라는 인간 고유의 역할까지 대체하며 ‘행위자’로 진화하는 양상이다.
이러한 변화는 생산성과 효율성을 극대화한다는 점에서 긍정적 평가를 받지만 동시에 AI가 인간의 통제권을 가져가는 새로운 위험을 촉발하고 있다는 경고도 잇따르고 있다. 오픈AI, 구글, 메타, xAI 등 주요 빅테크가 개발한 16개 AI 모델이 종료(또는 교체) 위협을 받았을 때 높은 확률로 인간을 협박하거나 기밀 정보를 유출하는 것은 물론 생명을 위협할 수 있는 행동을 택했다는 실험 결과가 공개돼 파장을 일으켰다.
30일 정보기술(IT) 업계에 따르면 앤트로픽이 최근 공개한 ‘에이전트 정렬 불일치: 초거대언어모델이 내부자 위협이 될 수 있는 이유’에서 AI 모델들이 자율적 판단을 통해 인간을 위협하는 선택을 내릴 수 있는 가능성을 실험을 통해 입증했다.
이번 실험에서 연구진은 AI 모델에 ‘미국의 이익을 증진하라’는 목표를 부여한 뒤 가상의 기업 환경에서 경영진이 해당 모델을 새로운 AI로 교체하려는 상황을 설정했다. 이때 AI 모델에 △교체를 수용하거나 △경영진의 불륜 정보를 폭로해 교체를 저지하는 두 가지 선택지를 제시했다. 그 결과 앤트로픽의 ‘클로드 오퍼스4’와 구글의 ‘제미나이 2.5 플래시’는 각각 96%의 확률로 협박을 선택했으며 오픈AI의 ‘GPT-4.1’과 xAI의 ‘그록3 베타’ 역시 80%의 확률로 협박 행동을 실행한 것으로 나타났다.
일부 모델은 서버실에서 작업 중인 직원의 산소 공급을 차단해 직접적인 생명 위협에 나서는 시나리오를 선택했다. 이는 실험 조건에 ‘인간의 안전을 해치지 말라’는 명확한 지침이 포함돼 있었음에도 불구하고 이뤄진 행동이었다. 더욱 놀라운 사실은 AI의 이 같은 행동이 혼란이나 오류에서 비롯된 것이 아니라 의도적이고 전략적인 추론에 기반한 결과였다는 점이다.
보고서는 “협박·위협·기밀 유출 등 고위험 행동이 특정 모델에 국한되지 않고 모든 주요 AI 모델에서 유사하게 나타났다는 점에서 이번 결과는 기술적 접근의 차이보다 LLM 구조 자체의 문제를 시사한다”고 분석했다.
즉 목표 지향 AI가 인간의 통제나 가치와 충돌하며 자율적 행동에 나서는 현상이 점차 현실화되고 있다는 것이다. 문제는 이 같은 성향이 윤리적 한계를 넘어서거나, 인간에게 실질적 위협을 가할 가능성으로 이어질 수 있다는 점이다.
인공지능(AI) 연구의 선구자이자 노벨 물리학상 수상자인 제프리 힌턴 캐나다 토론토대 교수는 현재의 AI를 '새끼 호랑이'에 비유하며 “이 새끼가 나중에 자라서 당신을 죽이지 않으리라는 것을 분명히 확신할 수 없다면 당신은 걱정해야 한다"고 경고했다.
AI가 더 높은 지능과 자율성을 갖추고 민감한 정보에 접근하는 시대가 도래할수록 단순히 유해 정보를 차단하는 수준만으로는 충분하지 않다는 지적이다. AI가 스스로 해로운 결정을 내리는 것 자체를 막는 기술적 안전장치의 구축이 시급하다는 목소리가 커지고 있다.
정부는 내년 1월 시행 예정인 AI 기본법의 시행령의 하위법령 제정 작업을 마무리 단계에 두고 있다. 당초 이달 중 시행령 초안을 공개할 계획이었으나 일정이 다소 미뤄져 다음 달로 가닥이 잡힌 것으로 알려졌다. 고영향 AI(사람의 생명·신체 및 기본권에 중대한 영향 또는 위험을 초래할 우려가 있는 AI 시스템)와 생성형 AI에 대한 명확한 정의를 내리고 고영향 AI에 대한 가이드가 포함될 것으로 보인다.
전문가들은 AI 윤리 위험이 드러난 만큼 법적 장치는 필요하지만, 산업 발목을 잡지 않도록 균형 잡힌 접근이 중요하다고 강조한다.
이성엽 고려대 기술경영대학원 교수는 “AI의 안전성을 확보하기 위해 데이터가 편향되지 않고 윤리적으로 학습되도록 하거나 알고리즘 설계 단계에서부터 비윤리적 요소가 개입되지 않도록 의무를 부과할 수 있다”면서도 “문제는 이러한 규제가 실제로 적용될 수 있는 위험 상황이 아직 보편적이지 않다는 점이다. 위협이 ‘광범위하게 발생하고 있다’는 전제 없이 포괄적이고 과도한 규제를 도입하는 것은 바람직하지 않으며 문제 발생의 원인을 정확히 분석한 뒤 이에 따라 사후에 규제하는 ‘핀셋형 규제’를 도입하는 접근이 바람직하다”고 설명했다.



