Google DeepMind, 분산 AI 학습 혁신 기법 'Decoupled DiLoCo' 공개
Google DeepMind가 AI 모델 훈련 방식의 판도를 바꿀 수 있는 분산 학습 기법 'Decoupled DiLoCo'를 2026년 4월 23일 발표했다. 이 기술은 수천 개의 칩이 촘촘하게 연결된 기존 방식과 달리, 여러 지역의 데이터센터를 독립적인 '섬(island)' 단위로 나눠 비동기 방식으로 학습을 진행한다.
가장 주목할 만한 성과는 네트워크 대역폭 절감이다. 8개 데이터센터에 걸친 학습에서 기존 방식이 요구하던 198Gbps를 0.84Gbps로 줄이는 데 성공했다. 실제로 미국 내 4개 지역에 분산된 환경에서 120억 파라미터 모델을 학습할 때 2~5Gbps의 일반 광역망(WAN)만으로 충분했으며, 기존 동기화 방식보다 20배 이상 빠르게 학습을 완료했다.
하드웨어 안정성 측면에서도 획기적인 개선이 이뤄졌다. 120만 개 칩이 높은 장애 발생률을 보이는 시뮬레이션 환경에서 기존 방식이 27%의 유효 학습 시간을 기록한 반면, Decoupled DiLoCo는 88%를 달성했다. 한 지역에서 장애가 발생해도 나머지 지역의 학습은 중단 없이 계속된다.
또한 이 기법은 서로 다른 세대의 TPU를 혼합 사용할 수 있어 가용 하드웨어를 더 효율적으로 활용할 수 있다. ML 벤치마크 성능도 기존 방식(64.4%)과 거의 동등한 64.1%를 기록해 실용성을 입증했다.
한국 AI 개발 생태계에도 시사점이 크다. 고가의 전용 고속 네트워크 없이 클라우드 데이터센터를 분산 활용할 수 있다는 의미로, AI 학습 인프라 구축 비용을 낮출 수 있는 실마리가 된다.
구글 서비스와 잘 붙는 멀티모달 AI.