ResearchDeepSeek2024년 12월

DeepSeek V3 공개 — 671B MoE 오픈 모델

중국 DeepSeek 가 671B 파라미터(37B 활성) MoE 모델 V3 를 공개했다. 훈련비 $5.6M.

DeepSeek V3 는 H800 GPU 2,048 개에서 약 280만 GPU-시간으로 훈련돼 공개 당시 대형 모델 훈련 비용 기준을 10배 낮췄다. Apache 2.0 유사 라이선스로 상업 사용 허용.