AI 최적화 설계 적용
갤럭시S26 온디바이스 AI 고도화

삼성전자가 차세대 엑시노스(Exynos)에 온디바이스 생성형 인공지능(AI)을 구현하기 위한 기술 청사진을 제시했다. 클라우드 의존을 벗어나 스마트폰 단말에서 대규모 언어모델(LLM)과 이미지 생성 AI를 디바이스 내에서 직접 구동할 수 있도록 한 이번 기술은 내년 초 공개가 유력한 갤럭시S26 시리즈의 차별화 포인트가 될 전망이다.
21일 본지 취재에 따르면 삼성전자는 최근 자사 테크 블로그를 통해 △저비트 양자화 △가중치 희소화 △알고리즘 수준의 최적화 등 신기술을 소개하며 엑시노스의 AI 역량을 대폭 강화했다고 밝혔다. 기존 생성형 AI는 막대한 연산량과 메모리 대역폭, 전력 소모 문제로 클라우드 서버에 의존해왔는데 삼성전자는 하드웨어·소프트웨어 동시 최적화를 통해 모바일 단말 수준에서도 충분한 성능을 확보했다는 설명이다.
삼성전자가 공개한 핵심 기술 중 하나는 저비트 양자화(Low-bit Quantization)다. 기존 32비트 부동소수점 연산을 8비트, 4비트 정수 단위로 낮춰 모델 크기를 크게 줄이는 방식이다. 이 기술을 적용하면 모델 크기를 최대 8분의 1 수준으로 축소할 수 있어, 수 기가바이트(GB)에 달하는 LLM이나 이미지 생성 모델도 모바일 기기에서 실행 가능하다. 연산 속도와 전력 효율을 동시에 끌어올릴 수 있다는 장점이 있다.
또 다른 핵심은 가중치 희소화(Weight Sparsity)다. AI 모델 내 중요도가 낮은 가중치를 제거해 불필요한 연산을 줄이고 메모리 접근을 최소화하는 방식이다. 엑시노스 플랫폼은 비정형(언스트럭처드) 희소성을 하드웨어 차원에서 지원해 메모리 병목 문제를 해소하고, 전력 소모까지 줄일 수 있도록 설계됐다. 여기에 입력값이 0일 경우 연산을 건너뛰는 ‘액티베이션 희소화’ 연구도 병행, 구조적 효율성을 한층 강화한다는 방침이다.
삼성전자는 알고리즘 수준의 최적화도 적극 적용했다. 대표 사례로 △가벼운 모델을 활용해 여러 후보 토큰을 먼저 생성한 뒤 대형 모델로 검증하는 ‘스페큘레이티브 디코딩(Speculative Decoding)’ △입력 문맥 전체가 아닌 일정 범위의 토큰만 참조해 연산 부담을 줄이는 ‘슬라이딩 윈도 어텐션(Sliding Window Attention)’ △이미지 생성 과정의 반복 단계를 줄여 속도를 높이는 ‘스텝 디스틸레이션(Step Distillation)’ 등을 소개했다. 이들 기법은 추론 속도를 3~4배 높이면서도 품질 저하를 최소화하는 것이 특징이다.
삼성전자는 지난해 출시한 갤럭시 S24 시리즈부터 ‘갤럭시 AI’를 내세우며 실시간 번역, 이미지 편집 등 AI 기반 기능을 강화해왔다. 앞으로 온디바이스 AI 기술이 고도화되면 실시간 생성 번역, 음성-텍스트 변환, 사진·영상 편집 등 복합적 멀티모달 AI 기능이 스마트폰에서 가능해져 소비자 체감 변화가 예상된다.
업계는 해당 기술이 담긴 엑시노스2600이 내년 초 공개될 0갤럭시S26 시리즈에 탑재될 것으로 보고 있다. 퀄컴 스냅드래곤 AP와 병행 탑재될 전망인데, 이는 삼성의 엑시노스 기술력이 퀄컴 수준에 도달했다는 뜻으로 해석된다.
삼성전자 관계자는 “엑시노스 SoC에서 대규모 생성형 모델을 구동하기 위해 아키텍처 차원의 혁신을 이어가고 있다”며 “AI 스튜디오 등 자체 툴체인과 결합해 에이전틱(Agentic) AI까지 확장 가능한 기반을 마련하겠다”고 밝혔다.



