[반휘은의 AI이야기] 보는 법을 잃은 사회

수정 2025-10-16 17:59

입력 2025-10-15 09:45

반휘은 칼럼니스트/ AI컨설턴트

기자 이름을 클릭하면
더 자세한 정보를
확인할 수 있어요!

북마크 되었습니다.
마이페이지에서 확인하세요.

가장작게
작게
기본
크게
가장크게

Reality.exe: 진짜를 시뮬레이션하는 세계

▲반휘은 칼럼니스트/ AI컨설턴트. (출처=본인 제공)

미국 교외의 한 가정집. 앞 마당에 설치한 트램폴린 위로 애완 토끼 세 마리가 붕붕 뛰고 있는 모습을 담은 야간 도어 캠 영상이 소셜 미디어를 한동안 휩쓸었다. 바람에 맞춰 너울거리는 커다란 귀와 쫑긋거리는 동그란 꼬리를 보며 사람들은 댓글창에 모여 탄성을 질렀다. 하지만 계정을 클릭한 순간, 감탄은 곧 의심으로 바뀌었다. 같은 구도, 같은 색채, 같은 카메라 각도로 찍힌 수십 개의 영상들이 이번에는 사자와 고양이, 하마, 도마뱀 등 전혀 다른 동물들을 담고 있었던 것이다. 사자와 고양이는 마치 동화 속 장면처럼 악수를 하고, 하마는 점프하다가 귀가 사라졌으며, 도마뱀은 두 발로 서서 카메라 밖으로 걸어 나갔다. 다시 토끼 영상으로 돌아가 본 사람들은 네 번째 점프에서 살짝 뒤틀린 왼쪽 귀가 야간 카메라의 저화질 때문이 아닌 생성형 AI의 작은 결함이라는 것을 눈치챘다.

현지 시간 지난 달 30일, OpenAI는 최신 동영상 생성 모델 Sora 2를 공개했다. 생생한 유명인들의 얼굴, 집중해서 작은 뉘앙스를 포착하지 않고서야 자연스럽게 들리는 대화, 물리적 규칙에 대부분 순응하는 배경 영상 등 Sora 2는 공개 직후 온라인 커뮤니티에서 큰 반향을 일으켰다. 네티즌들은 좋아하는 여러 애니메이션 캐릭터들을 한데 모아 가상의 세계관 충돌 전투 영상을 만들었고, 몇몇은 실존 유명인들이 기상천외한 답변을 내놓는 가짜 인터뷰 영상을 배포하기도 했다. 미국의 유명 유튜버 제이크 폴은 이러한 트렌드에서 가장 널리 쓰인 얼굴이다. 커밍아웃을 하며 화장하는 모습 (제이크 폴은 실제 커밍아웃을 한 적이 없다), 외계인으로부터 도망치는 현장 ‘직캠’, 요정 옷을 입고 춤을 추는 등 다양한 형태의 영상이 소셜 미디어를 메우고 며칠 후.

제이크 폴은 직접 영상을 올려 이러한 무분별한 딥페이크를 비판하는 발언을 하면서 퍼프를 손에 쥐고 얼굴에 파우더를 두드리기 시작했다.

그의 답변은 단순히 패러디로 볼 수 없다. 그는 자신을 모방한 가짜 이미지들을 부정하면서도, 그 부정의 행위를 또 하나의 이미지로 만들어냈다. 여기서 ‘진짜와 가짜’의 경계는 단순히 교란되는 수준을 넘어, 서로를 근거로 정당화하며 새로운 층위를 만든다. 데리다가 말한 보충(supplement)의 논리처럼, 결핍을 메우려는 보충이 오히려 원본의 지위를 불안하게 만드는 셈이다. 제이크 폴의 영상은 진짜를 복원하려는 시도이지만, 그 복원이 또 다른 위조의 층위를 만들어내며 다시 소비된다. 사람들은 진짜보다 더 ‘그럴듯한’ 설정에 반응하고, 그것이 사실보다 더 큰 정서적 실재를 갖게 된다. 제이크 폴의 일련의 영상들은 그런 허구적 실재의 정점을 보여준다. 그가 진짜로 존재한다는 증거조차 스스로 연출된 장면 안에서만 확인될 수 있기 때문이다.

결국 그의 퍼포먼스는 현실과 모조의 충돌이 아니라, 그 두 세계가 서로를 강화하며 확장되는 장면이다. ‘진짜’의 존재가 가짜의 필요 조건이 되고, ‘가짜’의 반복이 진짜의 의미를 갱신한다. 이 아이러니 속에서 우리는 ‘진실’이 아니라, 그 진실을 둘러싼 다층적 밈 (layered meme)의 순환 구조를 마주하게 된다. 이 구조는 이미 알고리즘이 설계한 질서 위에서 끊임없이 증식하고 있다.

딥페이크라는 단어가 대중들의 일상에 보편화되기 시작한 불과 2~3년 전만 해도, 움직이는 영상을 생성하는 AI 프로그램은 어딘가 모르게 기괴하고 어색한 동작과 왜곡된 물리 법칙 때문에 금세 가짜임이 들통나곤 했다. 당시 사람들은 이러한 영상을 밈으로 승화해 즐겼지만, 동시에 기술의 일부 세부 묘사가 생각보다 정교하다는 점에서 우려를 표했다. 그럼에도 대다수는 AI와 실제 영상의 차이를 비교적 쉽게 구분할 수 있었다. 어딘가 미묘하게 기술의 흔적이 남아 있었기 때문이다.

이제 상황은 달라졌다. 놀라운 속도로 발전하고 있는 생성형 비디오 모델들은 10~20장의 사진과 몇 초 분량의 음성 샘플만으로 현실과 거의 구분 불가능한 동영상을 단시간 안에 만들어내며, 실시간 편집도 가능케 한다. 자연어 처리 (Natural Language Processing) 접근 방식을 택한 덕에 사용자들은 문장으로 설명한 장면을 바로 쉽게 구현한다. Runway, OpenAI의 Sora, 구글 딥마인드의 Veo와 같은 차세대 모델은 실제 렌즈로 촬영한 피사체의 질감과 광원까지 계산해 재현하고, 1초에 60 프레임을 넘나드는 자연스러운 움직임을 만들어낸다. 최근 공개된 딥마인드의 Genie 3 는 단발성의 영상 생성을 뛰어넘어 실시간으로 지속 가능한 가상 세계를 생성해 놀라움을 자아냈다. 인기 게임인 포트나이트와 로블록스도 생성형 AI를 활용해 NPC의 표정과 대사를 실시간으로 생성하며, 플레이어의 행동에 따라 스토리를 변형하는 살아 있는 가상 월드를 구현했다. 과거라면 수개월이 걸렸을 작업이 이제는 하루 만에 가능해진 것이다.

이제 AI 이미지는 ‘그럴 듯함’이 아닌 ‘구별 불가능함’에 도달했다. 이미 화면이 제공하는 현실감을 무비판적으로 받아들이기 시작한지 오래인 우리는 기존에 의지하고 있던 시각적 판단 능력조차 의심하는 단계에 온 것이다. 단순히 속이는 수준을 넘어 원본이 없는 장면을 원래 있었던 것처럼 만들고, 그 장면이 우리의 기억 속에 실제로 본 것처럼 저장되는 세상에서 우리는 진실의 변형을 다시 목격하고 있다. 이런 맥락에서 미디어 철학자 빌렘 플루서가 말한 ‘기술이미지’ 개념은 AI 영상 시대를 놀라울 만큼 잘 설명한다. 플루서에 따르면 사진•영화•영상 같은 기술 이미지는 단순한 재현이 아니라, 기계적•알고리즘적 계산을 거쳐 ‘코드화된 세계’를 제시한다. 시청자는 그 코드의 구조를 모른 채 이미지를 사실로 받아들이며, 기술이 제시하는 시선 안에서만 세계를 본다. 생성형 AI 영상은 이 코드의 문법을 급격하게 고도화시켰고, 우리가 무심코 스크롤을 내리는 동안 이미 수많은 가짜 기억을 심어 놓는다.

그래픽 기반의 게임 산업에 비해 실제 사람이 더 많이 연루되는 미디어 산업은 더욱 복잡한 양상을 띄고 있다. 할리우드 제작사들은 후시 녹음을 비롯한 편집 과정은 물론, 이미 AI로 만든 가상 군중, 배경 합성, 스턴트 대역을 도입하고 있다. 평론가들의 극찬을 받은 2023년작 ‘악마와의 토크쇼 (Late Night with the Devil)은 인트로 영상에 생성형 AI 이미지를 활용했고, 올해 초 아카데미 시상식 10개 부문에 노미네이트된 ‘브루탈리스트 (The Brutalist)도 편집 과정에서 AI를 쓴 것이 밝혀져 논란을 일으켰다. 대체로 관객들의 시선은 카메라가 초점을 맞추고 있는 피사체에 집중되기에, 이런 부가적인 요소들은 별도의 신경을 쓰지 않는 이상 큰 어색함 없이 넘어가는 장치이기 때문이다. 이 흐름 속에서 2025년 7월, 넷플릭스는 오리지널 시리즈 ‘이터노트 (The Eternaut)’에 처음으로 생성형 AI를 도입했다고 발표했다. 넷플릭스 CEO 테드 서랜도스는 건물이 붕괴되는 장면을 구현하는데 쓰인 이 생성형 AI가 “기존 촬영 방식이라면 불가능했을 비용”을 효과적으로 감축했다고 극찬했다. 해당 장면은 기존 촬영 방식보다 약 10배의 시간을 단축한 것으로 알려졌다.

이렇듯 이미지와 비디오 AI의 활용은 비용과 제작 효율성 측면에선 혁신적인 발전이지만, 동시에 실존 예술의 경계를 흐린다. 성우 업계에서는 이미 위기감이 고조됐다. AI 음성 합성 기술로 특정 성우의 목소리를 재현해 광고•게임•오디오북에 무단 사용한 사례가 폭로되었고, 일부 국가는 저작인격권을 보호하는 법안을 추진 중이다. 인종적, 사회계층적 다양성이 언어 습관과 밀접한 미국의 경우는 AI의 활용이 더욱 민감해진다. 미국 성우 협회는 AI의 사용이 성우들의 일자리 위기는 물론, 거시적인 인종과 지역의 편견을 강화해 차별을 유래한다고 경고했다. 한국 성우 협회도 최근 서울교통공사의 AI 안내음 도입에 비판의 목소리를 냈다. 하지만 법은 기술의 속도를 따라가지 못한다.

더 심각한 문제는 악의적 사용이다. 보이스피싱 범죄 조직은 유명인의 목소리를 딥페이크로 합성해 가족을 사칭하거나 긴급 송금을 요구하는 전화를 걸고 있다. 정치 영역에서도 AI 영상은 이미 선거 전략의 일부가 됐다. 미국 대선 예비 경선에서 특정 후보가 범죄를 자백하는 듯한 가짜 영상이 유포되었고, 인도 총선에서는 상대 후보를 비하하는 합성 연설 영상이 하루 만에 수백만 뷰를 기록했다. 영상은 짧지만 감정적 파급력은 강하고, 팩트체크가 이뤄질 때쯤이면 이미 확산은 끝난 뒤다.

물론 합성 영상 문화는 새로운 것이 아니다. 20세기 초 사진 콜라주, 현대의 포토샵 합성, 아마추어 특수효과 영상은 오랫동안 존재해왔다. 르네상스 화가들은 후원자의 얼굴을 성경 속 인물로 그려 넣었고, 20세기 초 다다이스트들은 사진 콜라주를 통해 현실과 허구를 의도적으로 섞었다. 그러나 오늘날의 AI 영상은 이와 본질적으로 다르다. 당시의 합성은 그 인위성을 감추지 않았고 감상자는 그것이 의도된 ‘재해석’이자 해체 의식임을 인지했다. 반면 현대의 생성형 AI는 인위성을 지우고, 원래 그랬던 것처럼 속인다. 과거엔 합성을 감지하는 시간이 존재했지만, 이제는 콘텐츠 소비 속도와 생성 속도가 맞물리며 검증이 따라갈 틈이 없다.

MIT 사회학 교수 셰리 터클은 “디지털 기술이 만든 이미지는 단순한 재현이 아니라, 사회적 현실을 구성하는 요소”라고 말했다. 이 말은 지금 AI 영상에 정확히 들어맞는다. 이미지는 단순히 세상을 비추는 거울이 아닌 세상을 쌓는 도구다. 특히 시각적, 맥락적 충격이 강한 콘텐츠가 성행하는 알고리즘 기반 SNS에선 진짜와 가짜의 경계는 의도적으로 흐려진다.

정치학적 관점에서 이는 여론 형성의 구조 자체를 바꾼다. 2024년 브루킹스연구소 보고서에 따르면 사람들은 글로 접한 정치 후보자의 (거짓) 정보보다 영상에 더 높은 신뢰를 보인다. 이런 신뢰는 AI 합성 영상에도 동일하게 작용한다. 이에 따른 법적 규제 움직임도 있지만, 국가별 속도와 기준은 제각각이다. 미국 연방선거위원회(FEC)는 정치 광고에 AI 합성 여부를 명시하도록 하는 규칙을 검토 중이고, 유럽연합은 AI 생성 영상 라벨링을 의무화하는 법안을 통과시켰다. 그러나 라벨을 붙인다고 해서 확산이 멈추는 것은 아니다. 라벨이 달린 가짜 영상조차 ‘진실을 은폐하려는 시도’라는 음모론으로 재해석되기 때문이다. 에드워드 사이드는 재현(representation)이 권력의 도구가 된다고 했다. AI 합성 영상은 특정 집단•인물•사건의 이미지를 설계하고, 그 이미지를 현실로 받아들이게 만드는 가장 강력한 재현 장치다.

이 문제의 핵심은 기술이 아닌 ‘인식’에 있다. 한 번 가짜 영상을 진짜라고 믿은 사람은 나중에 그것이 허위임이 밝혀져도 태도를 바꾸기 어렵다. 이러한 확증편향은 자신이 지지하는 쪽의 가짜 영상을 접했을 때 진실 여부보다 정치적인 유익성을 먼저 평가한다. 즉, 영상의 진위보단 ‘우리 편에 유리한가’라는 주관적인 기준이 중심이 되는 것이다.

SNS는 이를 게임처럼 포장한다. AI인지 진짜인지 맞혀보라는 챌린지, 가상 AI 인플루언서의 하루, AI 여행 브이로그, 유명인의 ‘목격’ 딥페이크 영상이 사람들의 판단력을 시험한다. 틱톡과 인스타그램 릴스에서 유행하는 ‘AI or Not’ 트렌드는 의도적으로 3초 안에 답을 고르게 한다. 판단의 실패는 곧 피드의 몰입을 더 깊게 만든다. 판별이 아닌 소비를 우선시하게 되는 이 흐름은 진위 여부보다 더 강렬하고 감정적인 반응을 유도하는 콘텐츠가 추천 알고리즘의 우선순위를 차지하는 설정값과 직결되는 것이다.

올해 초 미국 소셜 미디어를 강타한 또 다른 유행은 ‘과거에서 온 브이로그’였다. 중세 시대, 르네상스, 미지의 도시 아틀란티스, 심지어 과거를 벗어나 ‘화성 지구인 기지’라는 공상과학적 설정까지 담은 이 영상들은 생성형 AI를 이용해 해당 배경에서의 삶이 어땠는지 보여주는 60초 가량의 1인칭 시점 브이로그였다. 존 버거가 말했던 현실을 구성하는 시각 매체의 역할의 확장성인 것이다. 재생산을 위한 원본이 필수조건이었던 과거와 다르게, 이러한 생성형 AI 영상들은 원본이 없는 존재까지 창조한다. 이는 미학적 재현을 넘어, 사회정치적 기억의 구조를 바꾼다. 이미지는 근본적으로 단순한 기록이 아닌 감정과 해석을 동반한 경험이기에, 이러한 매체를 ‘보는’ 우리는 사실 ‘믿도록 설계된 것’을 보고 있다는 점을 인지해야 한다. 이미지의 진위여부만큼 중요한 것은 우리의 감각과 기억에 어떻게 각인되느냐는 것이다.

결국 AI 영상 시대에 필요한 것은 단순한 기술의 개발 단계 규제가 아니다. 대중의 시각적•디지털•AI 문해력 교육, 플랫폼의 알고리즘 투명성 강화, 정치•상업적 목적으로 제작된 합성 영상의 원본 데이터 보관과 공개 의무화, 이 세 가지가 동시에 이루어져야 한다. 기술이 이미지를 복제하고 변형하는 속도를 멈출 수 없다면 최소한 그 영향력을 이해하고 가늠할 수 있는 장치를 마련해야 한다.

발터 벤야민은 기술 복제가 예술의 ‘아우라’를 파괴한다고 했지만, 동시에 그것이 대중의 새로운 인식 방식을 만든다고도 보았다. AI 합성 영상은 아우라를 제거하는 것을 넘어 새로운 차원을 덧입힌다. 앞으로 AI 영상은 더 정교해지고, 더욱 개인화될 것이다. 우리는 누군가의 목소리, 표정, 몸짓을 복제하는 영상을 하루에도 수십 번 마주하게 될 것이다. 이제 필요한 것은 기술에 대한 단순한 경계심이 아니다. 우리는 시각적 콘텐츠가 어떻게 구성되고, 어떤 목적을 위해 유통되는지 비판적으로 읽어내는 훈련이 필요하다. 법과 규제가 뒤따라야 하는 것은 물론, 궁극적으로는 AI 시대의 시민으로서 스스로를 방어하는 능력이 관건이다. ‘보는 법’을 배우는 일은 다시 말해 속지 않는 법을 배우는 일이다. 그리고 속지 않는 법은 결국 우리가 어떤 현실을 믿을지 선택하는 문제로 귀결된다.

그때마다 우리는 스스로에게 물어야 한다. 지금 내가 보는 이 ‘진짜’는 누구의 것인가?

저자 소개

반휘은은 글로벌 AI 거버넌스와 신기술을 전문으로 하는 정책 컨설턴트이자 저술가다. 미국 컬럼비아 대학교에서 디지털 인문학, 미디어철학, AI윤리를 전공하며 석사과정을 마친 후, 뉴욕 유엔본부의 (전)기술특사실 (현)디지털과 신기술사무국(전 Office of the Secretary-General’s Envoy on Technology, 현 Office for Digital and Emerging Technologies)에서 AI 정책 연구와 분석을 주도했다. 안보, 에너지, 노동, 건강, 법의 지배 등 다양한 분야에서 AI 거버넌스를 위한 전략적 프레임워크를 개발했으며 20회 이상의 고위급 자문 회의를 주관하며 AI 정책을 구체화했다. 구글, 마이크로소프트(MS), 메타 등 주요 산업 리더들과 협력하여 AI 거버넌스의 글로벌 표준을 마련하는 데 기여한 반휘은은, 디지털 윤리와 사회적 가치에 대한 깊이 있는 통찰을 제공한다. 학계와 산업계를 잇는 다리 역할을 하며, 현재는 AI 거버넌스를 주제로 한 책을 집필 중이다.