Google, 'Gemini 3.1 Flash TTS' 공개 — 70개 언어·다중 화자·감정 태그 지원
출처: Google AI Blog

Google DeepMind가 Gemini 3.1 제품군의 음성 합성 특화 버전 'Flash TTS'를 공개했다. 이름에 'Flash'가 들어간 데서 보이듯 저지연·저비용을 전면에 내세운다. Artificial Analysis 리더보드 Elo 1,211로 OpenAI·ElevenLabs 와 어깨를 나란히 하는 위치에 자리 잡았다.
핵심 기능은 세 가지다. 첫째, 오디오 태그 지원으로 "차분한 톤", "약간 빠르게", "웃음 섞어서" 같은 자연어 지시를 프롬프트에 직접 넣어 음성 스타일을 제어할 수 있다. 둘째, 네이티브 멀티스피커 대화 생성이다. 한 프롬프트 안에 화자 A·B의 대사를 넣으면 실제 두 명이 대화하는 음성을 생성한다. 셋째, 70개 이상 언어 지원으로 한국어 포함 다국어 콘텐츠에 대응한다.
기업용 신뢰성 확보 장치로 'SynthID' 워터마크를 기본 삽입한다. 생성된 음성에 가청 불가능한 디지털 서명이 들어가 AI 생성물 식별이 가능하다. 최근 세계적으로 확산 중인 딥페이크 음성 규제 흐름에 선제적으로 맞춘 설계다.
이용 경로는 Google AI Studio(개발자 미리보기), Vertex AI(기업 미리보기), 그리고 Google Vids(Workspace 구독자)다. 정확한 가격은 공개되지 않았으나 Google은 "고품질과 저비용의 이상적 균형" 이라고 설명했다.
광고
AdSense slot: article-bottom
이 AI 에 대해
구글 서비스와 잘 붙는 멀티모달 AI.