AI Post
UpdateGemma3일 전

Gemma 4 QAT 모델 공개 — 모바일에서 1GB 미만 메모리로 구동

출처: Google DeepMind Blog

Google DeepMind가 2026년 6월 5일, Gemma 4 모델의 양자화 인식 학습(QAT·Quantization-Aware Training) 최적화 버전을 공개했다. Gemma 4는 올해 초 발표된 Google의 오픈 모델 패밀리로, 이번 업데이트는 모바일 기기와 저사양 하드웨어에서의 실용적 배포를 겨냥한다.

QAT는 모델 훈련 과정에서 양자화를 직접 시뮬레이션하는 방식이다. 기존의 사후 양자화(PTQ)가 이미 완성된 모델을 압축해 성능 저하를 감수하는 것과 달리, QAT는 모델이 압축 상태에서 작동하는 것을 학습하도록 해 품질 손실을 최소화한다. Google은 이 방식이 PTQ 기반 기준선 대비 전반적으로 더 높은 품질을 달성한다고 밝혔다.

이번 공개의 핵심은 모바일 특화 양자화 방식이다. Gemma 4 E2B 텍스트 전용 모델에 적용된 이 방식은 정적 활성화(static activations), 채널별 양자화, 토큰 생성 레이어에 대한 2비트 압축, 임베딩 및 캐시 최적화 등을 조합해 모델 메모리 사용량을 1GB 미만으로 낮췄다. 일반 안드로이드 스마트폰이나 저가형 노트북에서도 로컬 실행이 가능한 수준이다.

배포 방식도 개발자 친화적으로 설계됐다. QAT 체크포인트는 Q4_0 형식과 모바일 전용 형식 두 가지로 Hugging Face에서 공개됐으며, llama.cpp, vLLM, Ollama, LM Studio 등 주요 로컬 AI 실행 도구와의 호환성을 확보했다. 클라우드 API 의존 없이 개인 기기 위에서 바로 활용할 수 있다.

개발을 주도한 것은 Google DeepMind의 Olivier Lacombe와 Omar Sanseviero다. 이들은 모바일 최적화를 단순한 압축이 아니라 "훈련-배포 일관성"의 문제로 접근했다고 설명했다.

광고
AdSense slot: article-bottom
이 AI 에 대해

구글 서비스와 잘 붙는 멀티모달 AI.

이 AI 의 역사

관련 기사

UpdateGemini3일 전

구글, 2026년 5월 AI 총정리 — Gemini Omni·Fitbit Air·Googlebook 핵심 발표

출처: Google Blog
Update3일 전

Kaggle, AI 벤치마크를 로컬 개발 환경에서 직접 만든다

출처: Google Blog
UpdateClaude5일 전

Claude 파트너 네트워크, 서비스 트랙·파트너 허브 정식 출시

출처: Anthropic News