Stable Audio 3.0 공개 — 오픈 웨이트 4종 모델로 음악 창작 진입장벽 낮춰
AI 음악 생성 도구 시장이 빠르게 성장하는 가운데, Stability AI가 'Stable Audio 3.0'을 공개하며 음악·오디오 창작 분야에서 새로운 기준을 제시했다. 이번 릴리스의 핵심은 단일 모델이 아닌 용도와 규모에 따라 최적화된 4가지 모델 패밀리로 구성됐다는 점이다.
공개된 모델은 △Small SFX(스몰 SFX) △Small △Medium △Large 총 4종이다. Small SFX는 모바일 기기에서 실시간 효과음 생성에 특화됐으며, Small 모델은 기기 내(on-device)에서 최대 2분 길이의 완성된 음악 트랙을 생성한다. Medium은 향상된 음악성으로 최대 6분 20초 트랙을 만들고, Large는 고급 음악성과 낮은 레이턴시를 동시에 구현한다.
기술적으로는 새로운 '의미-음향 오토인코더(semantic-acoustic autoencoder)'를 도입해 가변 길이 생성이 가능해졌다. 기존 모델이 고정 길이의 오디오만 생성할 수 있었던 것과 달리, 프롬프트나 창작 의도에 따라 길이가 유연하게 조정된다.
학습 데이터 측면에서 Stability AI는 완전히 라이선스된 데이터만을 사용했다고 밝혔다. 이는 AI 생성 콘텐츠의 저작권 문제가 업계 전반에서 중요 이슈로 부상하는 상황에서 의미 있는 선택이다.
배포 방식도 주목할 만하다. Hugging Face를 통한 오픈 웨이트 다운로드, Stability AI API 직접 접근, ComfyUI 등 파트너 플랫폼 활용 등 세 가지 경로를 제공한다. 라이선스는 커뮤니티 버전의 경우 출력물 소유권·배포·상업화가 모두 허용되며, 연매출 100만 달러 이상 기업은 엔터프라이즈 라이선스를 이용해야 한다.