LaunchGemma1일 전
Google, Gemma 4 12B 공개 — 인코더 없는 멀티모달 노트북 실행 모델
출처: Google Blog
Google이 Gemma 4 12B를 공개했다. 별도 인코더 없이 텍스트·이미지·오디오를 동시에 처리하는 통합(encoder-free) 아키텍처가 특징이다. 일반적인 멀티모달 모델이 이미지와 오디오 처리를 위해 별도 인코더 모듈을 두는 것과 달리, 12B는 단일 행렬 곱셈과 위치 임베딩만으로 시각·청각 신호를 언어 토큰과 같은 차원에 직접 투영한다.
성능 면에서는 Gemma 4 26B MoE 모델에 근접하면서도 메모리 사용량은 절반 이하다. 멀티 토큰 예측(MTP) 드래프터를 내장해 추론 지연도 낮췄다. Google은 16GB VRAM 또는 통합 메모리를 갖춘 소비자용 노트북에서 완전한 로컬 실행이 가능하다고 밝혔다.
배포 플랫폼은 Hugging Face·Kaggle·Ollama·LM Studio 등 주요 오픈소스 생태계를 모두 지원하며, 추론 프레임워크로는 Transformers·llama.cpp·MLX·SGLang·vLLM 등과 호환된다. 클라우드 쪽에서는 Google Cloud·Cloud Run·GKE를 통한 배포도 지원한다.
에이전트 개발을 위한 공식 스킬 저장소(Skills Repository)도 함께 공개됐다. Gemma 4 시리즈 전체 누적 다운로드는 1억 5,000만 건을 넘어섰으며, 라이선스는 Apache 2.0으로 상업적 활용이 자유롭다.
광고
AdSense slot: article-bottom