UpdateGemma2026.06.05

Gemma 4 QAT 모델 공개 — 모바일에서 1GB 미만 메모리로 구동

출처: Google DeepMind Blog

Google DeepMind가 2026년 6월 5일, Gemma 4 모델의 양자화 인식 학습(QAT·Quantization-Aware Training) 최적화 버전을 공개했다. Gemma 4는 올해 초 발표된 Google의 오픈 모델 패밀리로, 이번 업데이트는 모바일 기기와 저사양 하드웨어에서의 실용적 배포를 겨냥한다.

QAT는 모델 훈련 과정에서 양자화를 직접 시뮬레이션하는 방식이다. 기존의 사후 양자화(PTQ)가 이미 완성된 모델을 압축해 성능 저하를 감수하는 것과 달리, QAT는 모델이 압축 상태에서 작동하는 것을 학습하도록 해 품질 손실을 최소화한다. Google은 이 방식이 PTQ 기반 기준선 대비 전반적으로 더 높은 품질을 달성한다고 밝혔다.

이번 공개의 핵심은 모바일 특화 양자화 방식이다. Gemma 4 E2B 텍스트 전용 모델에 적용된 이 방식은 정적 활성화(static activations), 채널별 양자화, 토큰 생성 레이어에 대한 2비트 압축, 임베딩 및 캐시 최적화 등을 조합해 모델 메모리 사용량을 1GB 미만으로 낮췄다. 일반 안드로이드 스마트폰이나 저가형 노트북에서도 로컬 실행이 가능한 수준이다.

배포 방식도 개발자 친화적으로 설계됐다. QAT 체크포인트는 Q4_0 형식과 모바일 전용 형식 두 가지로 Hugging Face에서 공개됐으며, llama.cpp, vLLM, Ollama, LM Studio 등 주요 로컬 AI 실행 도구와의 호환성을 확보했다. 클라우드 API 의존 없이 개인 기기 위에서 바로 활용할 수 있다.

개발을 주도한 것은 Google DeepMind의 Olivier Lacombe와 Omar Sanseviero다. 이들은 모바일 최적화를 단순한 압축이 아니라 "훈련-배포 일관성"의 문제로 접근했다고 설명했다.

AI Post 의 관점

이번 Gemma 4 QAT 발표는 AI의 "무게 줄이기" 경쟁이 새 단계에 접어들었음을 보여준다. 2024년까지만 해도 온디바이스 AI는 스마트폰 제조사들의 전유물이었지만, 2025~2026년 들어 오픈 모델 진영이 저사양 하드웨어 구동을 공개적으로 경쟁하는 구도가 됐다. Gemma 4가 1GB 미만으로 들어간다는 것은 플래그십 기기는 물론 보급형 안드로이드 단말기에서도 로컬 AI가 현실적 선택지가 된다는 의미다.

한국 개발자와 사용자에게 이 변화가 갖는 의미는 두 가지다. 첫째, 개인정보 처리 민감도가 높은 헬스케어·금융 앱에서 클라우드 의존도를 낮출 수 있는 기술적 근거가 생긴다. 둘째, Ollama·LM Studio 생태계가 국내에도 활발히 퍼지고 있는 만큼, Gemma 4 QAT 모델은 프라이버시를 중시하는 로컬 AI 스택의 주력 기반 모델 후보가 될 것으로 보인다.

원문 출처

https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

AdSense slot: article-bottom

이 AI 에 대해

Geminiby Google

상세 →

구글 서비스와 잘 붙는 멀티모달 AI.

이 AI 의 역사

2026.04·Product
Gemma 4 오픈 모델 공개 — Apache 2.0

Gemma 4 QAT 모델 공개 — 모바일에서 1GB 미만 메모리로 구동

이 AI 의 역사

관련 기사

클로드로 AI 경제 데이터 직접 탐색 — Anthropic 경제 지수 커넥터 출시

Meta의 SAM 3·DINOv3, 미 에너지부 연구소 과학 데이터 분석에 투입

Google, Gemini 3.6 Flash 등 3종 신규 모델 공개 — 효율·속도·보안 특화