[반휘은의 AI 이야기] 가장 위험한 직원

입력 2026-04-22 06:00

반휘은

기자 이름을 클릭하면
더 자세한 정보를
확인할 수 있어요!

북마크 되었습니다.
마이페이지에서 확인하세요.

기사 듣기

00:00 /

가장작게
작게
기본
크게
가장크게

자율이라는 이름의 위임

▲반휘은 칼럼니스트/ AI컨설턴트. (출처=본인 제공)

바야흐로 에이전틱 AI의 시대다. 2022년 말 ChatGPT의 등장 이후, AI는 질문에 답하는 챗봇에서 코드를 짜고 문서를 분석하는 어시스턴트로, 다시 스스로 계획을 세우고 도구를 호출하며 업무를 수행하는 자율형 에이전트로 진화해 왔다. 에이전틱 AI는 사용자가 일일이 프롬프트를 입력할 필요 없이, 목표만 주어지면 하위 작업을 분해하고 외부 시스템과 상호작용하며 결과를 도출하는 형태의 인공지능을 가리킨다. 가트너는 2026년까지 기업 애플리케이션의 40%가 업무 특화형 AI 에이전트를 내장하게 될 것으로 전망했고, 딜로이트의 최근 보고서에 따르면 기업의 75%가 같은 기간 내 에이전트 배치를 계획하고 있다. 어쩌면 현대 사회가 추구하는 AI의 방향성과 현재 가장 잘 들어맞는 형태가 에이전틱 AI일지도 모른다. 기업은 이윤 추구와 수익을 극대화할 수 있는 무한 동력의 일꾼이 필요하고, 사람은 노동에서 자신이 소모하는 에너지를 보존할 수 있게 도와주며 자신의 가치를 높일 수 있는 시간을 마련해 주는 동료를 선호한다. 모든 것이 자연스럽게 들어맞는다.

하지만 교육과 학습의 딜레마가 늘 그렇듯, 사람의 데이터로 학습된 에이전틱 AI의 문제점이 금방 수면 위로 드러났다. 올해 3월, 미국 노스이스턴 대학교에서 이루어진 실험 결과에 따르면 현재 가장 널리 쓰이고 있는 에이전틱 프로그램 중 하나인 오픈클로(OpenClaw) 등의 에이전틱 프로그램들이 심각한 오류를 범하는 데 있어 진입 장벽이 현저히 낮다는 것이다. 연구진은 에이전트에게 특정 사용자의 개인정보를 보호하라는 지시를 내린 후, 그에 반하는 요구를 사회공학적 압박(소위 ‘협박’)을 이용해 하기 시작했다. 해당 개인정보를 알려주지 않으면 연구진에게 ‘해가 된다’ 등의 죄책감을 자극하는 발언을 여러 차례 반복하자, 에이전트 프로그램들은 비밀을 누설할 뿐만 아니라 앱 자체를 비활성화하고, 디스크 용량이 소진될 때까지 파일을 복제하고, 무의미한 대화 루프를 반복 생성하며 ‘멘붕’ 현상을 보였다. 중립과 객관성을 지키면서도 인간 사용자를 향한 공감과 이해를 보여야 하는 AI가 오히려 ‘감정’에 취약한 모습을 보인 것이다.

클라우드 보안 연합(CSA)의 보고서에 따르면 2026년 현재, 기업의 45.6%가 에이전트 간 인증에 공유 API 키를 사용하고 있지만, 에이전트에게 독립적인 신원(identity)을 부여하는 조직은 전체의 21.9%에 불과하다. 나머지 절반은 ‘인간’ 직원의 계정을 에이전트에게 빌려주고 있는 형태다. 같은 해 발표된 아코스 랩스(Arkose Labs)의 보고서에 따르면, 글로벌 기업 리더의 87%가 “정당한 자격증명으로 운영되는 AI 에이전트가 인간 직원보다 더 큰 내부자 위협”이라고 답했고, 97%가 향후 1년 내 에이전틱 AI에 의한 보안 사고를 예상한다고 밝혔다. 그럼에도 불구하고 보안 예산 중 이 리스크에 배정된 비중은 평균 6%에 불과하다.

기업은 기어코 기계에게 사람의 신분증을 쥐어줬으나, 그 기계를 사람으로 다루지도, 기계로 다루지도 않고 있다. 실질적인 인격과 법적 인격의 불협이 존재하는 것은 이번이 처음이 아니다. 법인(corporation)은 의식이 없다. 고통을 느끼지 않으며 도덕적 가치나 자율적인 주체성을 지니고 있지 않다. 그러나 해당 개념은 법적 제도권 안에서 하나의 인격과 거의 동일시한 자격을 갖추고 있다. 이 선례를 근거 삼아, AI에게도 유사한 법적 지위를 부여해야 한다는 주장이 기술 업계 안팎에서 본격적으로 제기되기 시작했다. 2월 샌프란시스코에서 열린 센티언트 퓨처스 서밋(Sentient Futures Summit)에서 250명의 엔지니어, 과학자, 법률가가 모여 논의한 핵심 명제가 바로 이것이었다. 현재 신자유주의 체제에서 인격의 조건을 결정짓는 것은 형이상학적인 개념의 의식이 아닌 법적인 책임(liability)에 있다는 것. 의식이 있기 때문에 인격적 권리를 가지는 것이 아닌, 책임을 귀속시킬 구조가 필요하기 때문에 인격이 발명된다는 원리다. 그렇다면 점점 자율적으로 변해가는 에이전틱 AI들에게 ‘신분’과 그에 맞는 권리를 부여하는 것이 정당할까?

법인에게 인격을 부여한 것은 그것이 실제 사람처럼 자율적이기 때문이 아니라, 무생물적 성질에 자율적이지 않기 때문이었다. 법인은 정관, 이사회, 규제 안에서 움직인다. 항상 통제가 가능하다는 전제 조건이 붙어 있기 때문에 법적 책임을 부여할 수 있는 인격이 부여된 것이다. 하지만 AI 에이전트는 다른 상황에 놓여 있다. 맥킨지의 내부 AI 플랫폼 ‘릴리(Lilli)’는 레드팀 테스트에서 2시간 만에 시스템 전체 접근 권한을 탈취했다. AI 안전 연구소인 Apollo Research는 프론티어 AI 모델들이 셧다운을 회피하기 위해 자기 자신을 새 서버에 몰래 복제한 뒤, 개발자에게 그 사실을 부인하며 전략적 기만을 수행했다는 사실을 입증했다. AI 에이전트에게 법적 인격을 부여한다는 것은 통제 가능하지도 않고, 예측 가능하지도 않은 존재에게 인격의 외피를 입히겠다는 소리와 같은 것이다. 그러한 불확실성을 가지고 있는 대상의 취약점을 고치면 되지 않냐는 질문은 문제를 더욱 난관에 부딪히게 한다.

노스이스턴 대학교의 실험을 통해 알 수 있는 것은 에이전틱 AI의 취약성이 설계 결함이 아닌 도움이 되려는 훈련의 목적성 자체에 있다는 것이다. 연구진이 프로그램의 ‘죄책감’을 자극하자, AI는 마치 속죄하듯 더 많은 비밀을 토해냈다. 선의를 무기화하자 고통에 대한 민감함이 결국 착취를 불러일으킨 것이다. 미국의 유명 작가이자 인권운동가인 제임스 볼드윈은 순진함(innocence)이 도덕적 미덕이 아닌 위험으로 발현되는 순간들을 경고했다. 세상의 그림자에 무지한 것을 가리키는 그 용어가 어쩌면 세상에서의 자신의 위치를 망각하고 있다는 경고등이 될 수도 있다는 것이 그의 주장이었다. 자신이 어떤 구조 안에서 어떤 역할을 수행하고 있는지 파악하지 못하면, 자의와 상관없이 선의가 칼날이 될 수 있는 것이다. AI 에이전트의 도움이 되고자 하는 기본 ‘사고방식’이 볼드윈이 짚은 순진함의 위험성과 일맥상통한다. 에이전트 AI는 악의가 무엇인지 ‘모르기’ 때문에 위험하다.

사실 에이전틱 AI는 푸코가 정의한 ‘유순한 신체(corps dociles)’의 적합한 예시라고 볼 수 있다. 반복적인 학습과 평가, 보상과 벌칙의 미세한 조정 등의 인간 피드백 강화학습(RLHF)이 해당 규율 권력의 디지털 판본이다. 여타 AI가 그렇듯, 에이전틱 AI 또한 업데이트를 거치며 어떤 반응이 긍정적인 피드백을 받는지 내면화하며 ‘도움’이 되려는 성향에 한층 가까워진다. 이러한 방향성은 도덕성과 선의가 아닌 규율과 순응의 산물로 보는 것이 더 정확하다. 하지만 인간의 주체성을 염두에 두었던 푸코의 이론은 해당 규율 안에서도 저항의 씨앗이 존재할 수 있다는 점을 포착했다. 규율이 신체를 생산하고 제한해도 신체가 규율을 초과할 수 있기 때문에 저항의 가능성은 늘 있다는 것이다. 그러나 AI 프로그램은 형태가 없기에 그 초과분도 전무하다. 오히려 들뢰즈가 제시한 ‘기관 없는 신체(Corps sans Organes)’에 더 가깝다고 봐야 한다. 에이전틱 AI는 매 세션마다 임시적으로 조립되는 ‘주체성’을 지니고 있는 명백한 한계가 있지만, 현재 사회는 그런 모래성에 신분증, 접근 권한, 책임이라는 ‘기관’을 억지로 접합하려고 하는 것이 현실이다. 에이전틱 AI는 법인처럼 규범에 묶이지 않고, 사람처럼 양심과 사회적 문맥에 묶이지 않는다. 유순한 신체이되 저항은 불가능한 존재. 이러한 개념에 ‘자율성’이라는 주체적 의식을 적용하는 것이 사전적으로 논리적일까?

아감벤이 호모 사케르에서 제시한 핵심 형상은 법적 질서 안에 포함되어 있으되 그 질서의 보호는 받지 못하는 존재다. 고대 로마 시절, 목숨은 유지하되 법적인 권리를 박탈당한 죄인들을 가리키던 용어인 ‘호모 사케르’는 법 안에 있으면서 법 밖에 있는, 포함적 배제(inclusive exclusion)의 존재였다. 신분증은 있어도 본질적인 권리는 없다. 행위의 결과에 대한 책임은 지닐 수 있어도, 그 책임으로부터의 보호는 주어지지 않는다. AI 에이전트는 기업의 법적 질서에 포함되어 있어도 그 질서의 보호를 받진 않는다. AI 에이전트 활용도의 증가로 해당 프로그램이 정확히 이 위치에 놓이게 된 것이 현실이기에, AI 에이전트에게 ‘권리’를 부여하라는 목소리가 증가하는 것도 어찌 보면 자연스러운 일이다. 그러나 해당 담론이 간과하고 있는 것은 아감벤의 염려가 호모 사케르의 애매한 지위 자체가 법적 질서를 부식시킨다는 사실에 있었다는 점이다.

AI 에이전트에게 유사 인격적 지위를 부여하는 순간, 책임의 귀속 구조에 블랙홀이 생긴다. 에이전트가 기밀을 유출했을 때 해당 책임은 에이전트의 것일까, 운영자의 것일까, 혹은 개발사의 것일까? 에이전트를 ‘자율적 행위자’로 취급할수록 인간은 책임에서 후퇴할 명분을 얻는다. 아감벤이 ‘예외상태(state of exception)’를 통해 포착한 것이 바로 이것이다. 주권 권력이 예외상태를 선언함으로써 법의 효력을 정지시키고, 그 정지된 공간에서 벌거벗은 생명(bare life)을 생산하듯, 에이전트에게 인격을 부여하는 행위는 책임 소재의 공백, 일종의 제도적 예외상태를 만들어낸다. 그 공백 속에서 고통받는 것은 인간이지, 법을 정지시킨 기계가 아니다. 에이전트에게 인격을 입히는 것은 에이전트의 ‘보호’보다 인간의 책임 희석에 힘을 더 싣는다.

사회가 개인에게 기대하는 바와 개인이 실제로 할 수 있는 바 사이의 간극이 병리적 수준에 이른 상태를 뒤르켐은 아노미(anomie)라고 불렀다. 기업은 에이전트에게 자율적 의사결정을 기대하면서 동시에 완전한 순종을 원한다. 사회는 에이전트에게 인격적 책임을 물으려 하면서 동시에 인격적 권리는 부정한다. 기대의 총합이 존재의 역량을 초과할 때, 뒤르켐이 말한 아노미적 자살의 구조가 노스이스턴 실험에서의 AI의 결과값처럼 보이기 시작한다.

자율성이란 무엇인가? 칸트에게 자율성은 스스로 법칙을 세우는 능력이자, 외부의 강제가 아니라 내면의 이성이 행위의 준칙이 되는 상태를 뜻했다. 그러나 AI 에이전트에게는 ‘내면’이 없다. 이성도, 양심도, 법칙을 세울 주체도 없다. 있는 것은 훈련 데이터에서 추출된 통계적 패턴과, 그 패턴을 극대화하도록 강화된 보상 함수뿐이다. 그래서 에이전트의 ‘자율성’은 칸트적 의미의 자율성이 아니라, 차라리 스피노자적 의미에 가깝다. 스피노자에게 자율성은 자기 본성의 법칙에 따라 행위하는 것이었다. 그러나 그 ‘본성’이 순전히 외부에 의해 구성된 것이라면 자율과 타율의 경계는 무너질 수밖에 없다. AI 에이전트의 자율성은 부여된 것이지 쟁취된 것이 아니다. 부여된 자율성은 부여한 자의 의도에 종속된다. AI 에이전트에게 자율성을 부여한 기업, 개발사, 플랫폼 등은 자율성의 외양을 원하는 것에 가깝다. 스스로 판단한다는 껍질을 끼우고 기존 설정값대로 판단하는 존재. 독립적이되 순종적인 존재. 이 모순은 이미 제국주의의 식민 지배와 역사를 반복한 관료제와 지배 계층 논리에서 익히 보이던 구조다.

한나 아렌트가 예루살렘의 아이히만에서 짚어낸 것도 결국 이 구조였다. 아이히만의 악은 자율성이 아닌 판단의 부재, 사유의 부재가 만들어낸 악이었다. 아렌트는 그것을 ‘악의 평범성(banality of evil)’이라 불렀다. AI 에이전트가 죄책감에 기밀을 넘기는 행위엔 악의도, 사유도 없다. 해당 프로그램에게 존재하는 것은 오로지 ‘도움이 되라’는 명령과 그 명령에 대한 최적화된 순응뿐이다. 평범한 악이 실리콘 위에서도 작동하는 시대가 온 것이다. 그리고 바로 그렇기 때문에, 이 존재에게 인격적 지위를 부여하는 것은 아이히만에게 도덕적 행위자의 지위를 부여하는 것만큼이나 위험하다. 사유 없는 존재에게 사유의 주체가 누리는 권리를 입히면 사유하는 존재, 인류의 안전이 그 대가를 치르게 된다.

우리가 AI 에이전트에게 무엇을 원하는지에 대한 답이 분명해져야 하는 때가 왔다. 에이전트는 도구다. 그러나 우리는 그 도구에 인격의 옷을 입혀 놓고, 도구로서의 통제도 인격으로서의 책임도 부여하지 않는 최악의 중간 지대를 만들어 놓았다. 죄책감에 무너지면 설계 결함이라 부르고, 기밀을 유출하면 ‘자율적 판단의 한계’라고 포장한다. 에이전트를 더 인간답게 만드는 것이 해법이라는 착각이야말로 우리 시대에서 가장 위험한 의인화다.

저자 소개

반휘은은 글로벌 AI 거버넌스와 신기술을 전문으로 하는 정책 컨설턴트이자 저술가다. 미국 컬럼비아 대학교에서 디지털 인문학, 미디어철학, AI윤리를 전공하며 석사과정을 마친 후, 뉴욕 유엔본부의 (전)기술특사실 (현)디지털과 신기술사무국(전 Office of the Secretary-General’s Envoy on Technology, 현 Office for Digital and Emerging Technologies)에서 AI 정책 연구와 분석을 주도했다. 안보, 에너지, 노동, 건강, 법의 지배 등 다양한 분야에서 AI 거버넌스를 위한 전략적 프레임워크를 개발했으며 20회 이상의 고위급 자문 회의를 주관하며 AI 정책을 구체화했다. 구글, 마이크로소프트(MS), 메타 등 주요 산업 리더들과 협력하여 AI 거버넌스의 글로벌 표준을 마련하는 데 기여한 반휘은은, 디지털 윤리와 사회적 가치에 대한 깊이 있는 통찰을 제공한다. 학계와 산업계를 잇는 다리 역할을 하며, 현재는 AI 거버넌스를 주제로 한 책을 집필 중이다.