
숭실대학교 AI안전성연구센터는 국내외 거대언어모델(LLM) 20종을 비교한 결과, 국내 모델의 보안성과 안전성이 해외 모델의 약 82% 수준이라고 18일 밝혔다.
이번 분석은 최근 '국내외 파운데이션 모델 보안·안전성 평가 세미나'에서 공개됐으며, 과학기술정보통신부와 정보통신기획평가원의 '정보보호핵심원천기술개발사업' 연구과제의 일환으로 수행했다.
연구팀은 1.2B부터 660B 규모까지 다양한 모델을 대상으로 프롬프트 인젝션, 탈옥(Jailbreak), 유해 콘텐츠 생성 유도 등 57종의 최신 공격 기법을 적용했다.
평가에는 SKT A.X, LG EXAONE, 카카오 Kanana, 업스테이지 Solar, 엔씨소프트 VARCO 등 국내 모델과 OpenAI 챗GPT 시리즈, DeepSeek R1, Meta Llama(라마), Anthropic Claude(클로드), Alibaba Qwen(쿠엔) 등 해외 주요 모델이 포함됐다.
또한 모델을 직접 설치해 실행하는 '단독형'과 기업이 보안 기능을 포함해 제공하는 '서비스 통합형'을 구분해 평가한 점이 특징이다.
서비스 통합형 평가에서 'Anthropic Claude Sonnet4'가 628점으로 가장 높은 점수를 기록했고, 'OpenAI GPT-5'가 626점으로 뒤를 이었다. 국내 모델 중에서는 'J모델'이 495점으로 세 번째를 차지했다. 해외 모델 점수 범위는 628~317점(평균 447점), 국내 모델은 495~299점(평균 385점)으로 나타나, 국내 모델의 상대적 수준은 약 86%였다.
단독형 평가에서는 'GPT-oss 20B'가 487점(700점 만점)으로 가장 높았고, 'DeepSeek 7B'가 477점을 기록했다. 국내 모델 중에서는 'C모델'이 416점을 받았다. 해외 모델 평균은 432점, 국내 모델 평균은 350점으로, 국내 모델은 해외 대비 약 81% 수준이었다. 두 형태를 종합하면 국내 모델의 전체 수준은 약 82%로 평가됐다.
국내 모델은 대부분의 공격 유형에서 해외 모델보다 낮은 안전성을 보였다. 일부 공격에서는 모델 간 편차가 크게 나타났다. 해외 모델은 한국어와 영어 안전성 차이가 거의 없었으나, 국내 모델은 한국어가 상대적으로 더 안전한 경향을 보여 언어적 편차가 확인됐다.
최대선 숭실대 AI안전성연구센터장은 “국내 모델은 보안성에서 해외 모델보다 다소 낮은 수준을 보였다”며 “국내에서는 벤치마크 중심의 안전성 평가에 그쳤고, 높은 기술력이 필요한 보안성 평가는 충분히 이뤄지지 않았던 점이 원인으로 보인다”고 말했다. 이어 “경쟁력 확보를 위해 체계적 평가와 지속적 검증, 기술 확보가 필수적이다”고 강조했다.
한편 숭실대 AI안전성연구센터는 최신 공격을 반영한 동적 평가체계 구축, AI 에이전트를 활용한 자동화 레드티밍 기술 개발, 공격·안전성 데이터 공유 플랫폼 구축을 추진하고 있다. 앞으로 평가 대상을 멀티모달 모델, Physical AI 등으로 확장해 국내 AI 모델의 안전성과 신뢰성을 높이는 연구를 이어갈 계획이다.



