DiffusionGemma 공개 — GPU에서 기존 대비 4배 빠른 텍스트 생성 모델
구글이 텍스트 생성 방식 자체를 바꾸는 실험적 AI 모델 'DiffusionGemma'를 공식 발표했다. 기존 대규모 언어 모델이 단어를 하나씩 순서대로 생성하는 '자기회귀(autoregressive)' 방식을 채택하는 것과 달리, DiffusionGemma는 이미지 생성 AI에서 착안한 '확산(diffusion)' 방식을 텍스트에 적용해 전체 블록을 동시에 만들어낸다.
성능 측면에서 이 모델은 NVIDIA H100에서 초당 1,000토큰 이상, RTX 5090에서는 초당 700토큰 이상을 처리한다. 총 파라미터는 26B(260억)의 혼합 전문가(Mixture of Experts) 구조이지만, 추론 시 활성화되는 파라미터는 3.8B에 불과해 실제 처리 부담이 적다. 양자화(quantization)를 적용하면 18GB VRAM의 소비자용 GPU에서도 실행할 수 있으며, 한 번의 포워드 패스에서 256토큰을 동시에 생성한다.
기술적 특징으로는 양방향 어텐션(bi-directional attention)이 핵심이다. 기존 자기회귀 모델은 앞에서 뒤로만 문맥을 참조하지만, DiffusionGemma는 생성 중인 모든 토큰이 서로를 동시에 참조할 수 있다. 이는 코드 중간 삽입(infilling), 텍스트 편집, 구조화된 출력에 특히 유리한 구조다.
다만 구글은 출력 품질이 표준 Gemma 4 모델보다 낮다고 명시했다. "최고 품질이 필요한 애플리케이션에는 표준 Gemma 4를 권장한다"는 입장이다. DiffusionGemma는 최대 품질보다 최대 속도가 중요한 로컬 인터랙티브 워크플로우에 최적화되어 있으며, 클라우드 고처리량 환경에서는 이점이 줄어드는 특성이 있다.
공개 방식은 Apache 2.0 라이선스로 Hugging Face를 통해 배포되며, MLX, vLLM, NVIDIA NeMo와의 통합이 지원된다. llama.cpp 지원도 곧 추가될 예정이다.
Google이 공개한 Apache 2.0 라이선스 오픈웨이트 AI 모델 가족.