UpdateGemini2026.04.20

Google, 'Gemini 3.1 Flash TTS' 공개 — 70개 언어·다중 화자·감정 태그 지원

출처: Google AI Blog

Google DeepMind가 Gemini 3.1 제품군의 음성 합성 특화 버전 'Flash TTS'를 공개했다. 이름에 'Flash'가 들어간 데서 보이듯 저지연·저비용을 전면에 내세운다. Artificial Analysis 리더보드 Elo 1,211로 OpenAI·ElevenLabs 와 어깨를 나란히 하는 위치에 자리 잡았다.

핵심 기능은 세 가지다. 첫째, 오디오 태그 지원으로 "차분한 톤", "약간 빠르게", "웃음 섞어서" 같은 자연어 지시를 프롬프트에 직접 넣어 음성 스타일을 제어할 수 있다. 둘째, 네이티브 멀티스피커 대화 생성이다. 한 프롬프트 안에 화자 A·B의 대사를 넣으면 실제 두 명이 대화하는 음성을 생성한다. 셋째, 70개 이상 언어 지원으로 한국어 포함 다국어 콘텐츠에 대응한다.

기업용 신뢰성 확보 장치로 'SynthID' 워터마크를 기본 삽입한다. 생성된 음성에 가청 불가능한 디지털 서명이 들어가 AI 생성물 식별이 가능하다. 최근 세계적으로 확산 중인 딥페이크 음성 규제 흐름에 선제적으로 맞춘 설계다.

이용 경로는 Google AI Studio(개발자 미리보기), Vertex AI(기업 미리보기), 그리고 Google Vids(Workspace 구독자)다. 정확한 가격은 공개되지 않았으나 Google은 "고품질과 저비용의 이상적 균형" 이라고 설명했다.

AI Post 의 관점

음성 AI 시장의 경쟁 구도가 분명히 드러났다. ElevenLabs가 프리미엄·고품질 포지션을 고수하는 사이, Google은 '충분히 자연스러운 품질 + 개발자 친화 가격' 으로 중간 시장을 노린다. Flash 라는 이름 자체가 '가성비' 포지셔닝이다.

한국 시장에서 실제 파급력은 두 가지에 달려 있다. 하나는 한국어 음성 품질이 ElevenLabs·네이버 클로바 대비 어느 정도 수준인가, 둘은 SynthID 워터마크가 국내 규제 환경(딥페이크 음성 처벌 강화 기조)에서 어떤 식으로 수용되는가다. 특히 후자는 AI 음성을 광고·콘텐츠에 쓰는 기업들에게 실무적 방어선이 될 수 있다.

단, 아직 미리보기 단계라 안정적 프로덕션 투입은 시기상조다. API 한도·가격·레이턴시가 공개된 뒤에야 ElevenLabs·OpenAI 대비 실질 경쟁력을 판단할 수 있다.

원문 출처

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts

AdSense slot: article-bottom

이 AI 에 대해

Geminiby Google

상세 →

구글 서비스와 잘 붙는 멀티모달 AI.

Google, 'Gemini 3.1 Flash TTS' 공개 — 70개 언어·다중 화자·감정 태그 지원

이 AI 의 역사

관련 기사

클로드로 AI 경제 데이터 직접 탐색 — Anthropic 경제 지수 커넥터 출시

Meta의 SAM 3·DINOv3, 미 에너지부 연구소 과학 데이터 분석에 투입

Google, Gemini 3.6 Flash 등 3종 신규 모델 공개 — 효율·속도·보안 특화