2024 оны 12-р сард Хятадын DeepSeek баг нэг зүйл хийсэн. 671 тэрбум параметртай модель бүтээгээд, сургалтын зардал нь $5.5 сая гэж зарласан. GPT-4-ийн зардал $100 сая орчим гэж тооцоолдог. Benchmark-ийн оноогоор бараг ижил. Зарим дээр илүү. Яаж?
Энэ бол маркетингийн нэхэмжлэл биш. Техникийн цаад шийдлүүд нь нийтлэгдсэн, нээлттэй, хэн ч унших боломжтой. Энэ нийтлэлд би тэдгээрийг задалж, Америкийн загваруудтай хэрхэн ялгаатай болохыг тайлбарлана.
Яриагаа тодорхой тоонуудаас эхлэх нь зүйтэй. Үүний дараа яагаад ийм ялгаатай болохыг техникийн талаас нь задлана.
| Загвар | Сургалтын зардал | GPU цаг | Чип |
|---|---|---|---|
| DeepSeek-V3 | $5.5 сая | 2.78 сая цаг | 2,048x H800 |
| Llama 3.1 405B | ~$92-123 сая | 30.8 сая цаг | 16,000x H100 |
| GPT-4 | ~$50-100+ сая | Тодорхойгүй | ~25,000x A100 |
Нэг зүйлийг тодруулах хэрэгтэй. DeepSeek-ийн $5.5 сая гэдэг тоо нь зөвхөн эцсийн амжилттай сургалтын compute зардал. Өмнөх туршилтууд, R&D, цалин, дэд бүтцийн зардлыг оруулаагүй. Бүгдийг нийлүүлбэл $10-20 сая орчим болно гэж тооцоолдог. Гэхдээ тэр ч гэсэн GPT-4-ийн 5-10 дахин бага.
Тэгэхээр 671 тэрбум параметртай загвар токен бүрд ердөө 37 тэрбумыг л идэвхжүүлдэг. 5.5 хувь. Үлдсэн 94.5% нь унтаж байна. Яаж ийм юм боломжтой вэ?
Америкийн анхны том загварууд (GPT-3, GPT-4-ийн нэг хувилбар, Claude, Llama) дийлэнхдээ dense transformer архитектур дээр суурилсан. Энэ нь токен бүрд загварын бүх параметр идэвхждэг гэсэн үг. 405 тэрбум параметртай бол токен бүрд 405 тэрбум параметр ажилладаг.
DeepSeek өөр замаар явсан. DeepSeekMoE гэж нэрлэсэн архитектур нь олон жижиг "expert" сүлжээнүүдийг нэг загварт нэгтгэдэг. Токен ирэхэд router сүлжээ нь тухайн токенд хамгийн тохиромжтой цөөн хэдэн expert-ийг сонгож идэвхжүүлдэг. Бусад expert-ууд ажиллахгүй.
Dense Transformer
GPT-4, Claude, LlamaБүх параметр, токен бүрд идэвхждэг. Хялбар, тогтвортой. Гэхдээ маш их compute шаарддаг. 405B загвар = токен бүрд 405B параметрын тооцоолол.
DeepSeekMoE
DeepSeek-V2, V3Expert-уудыг нарийн хуваасан. Shared expert нь бүх токенд хэрэглэгдэж, routed expert-уудаас зөвхөн цөөхнийг сонгодог. 671B загвар, гэхдээ токен бүрд ердөө 37B.
Auxiliary-loss-free load balancing
MoE-ийн хамгийн том асуудал нь зарим expert олон токен авч, зарим нь огт ажилгүй суух явдал. Өмнөх MoE загварууд (Mixtral гэх мэт) үүнийг шийдэхийн тулд auxiliary loss нэмдэг — expert-уудыг жигд ачаалахыг албадах шийтгэлийн функц.
Гэхдээ энэ нэмэлт loss нь загварын гол чанарыг бууруулдаг. DeepSeek үүнийг бүрэн арилгасан. Тэд auxiliary loss-гүйгээр load balancing хийдэг шинэ арга зохиосон. Expert-уудын ачааллыг bias term-ээр динамикаар зохицуулдаг, загварын суралцах чадварт саад болохгүйгээр.
MoE нь шинэ зүйл биш — Google-ийн Switch Transformer, Mistral-ийн Mixtral бүгд ашигласан. Гэхдээ DeepSeek-ийн хэрэгжүүлэлт хамгийн нарийн. Expert-уудыг бусдаас жижиг, олон болгосон нь илүү нарийвчлалтай routing хийх боломж өгсөн.
Transformer загваруудын хамгийн том inference-ийн саад бол KV cache. Загвар текст үүсгэх бүрд өмнөх токен бүрийн Key, Value утгуудыг санах ойд хадгалах шаардлагатай. Контекст урт болох тусам энэ cache асар их санах ой зарцуулдаг.
Америкийн загварууд үүнийг хэрхэн шийддэг вэ? Llama 2, 3 нь Grouped Query Attention (GQA) ашигладаг. Олон query head нэг K, V head-ийг хуваалцдаг. Ингэснээр KV cache-ийг ойролцоогоор 87.5% хүртэл бууруулдаг. Сайн шийдэл.
DeepSeek өөр замаар явсан. Multi-head Latent Attention (MLA) нь KV cache-ийг бүхэлд нь бага хэмжээст latent vector руу шахдаг. K, V утгуудыг тус тусдаа хадгалахын оронд нэг жижиг вектор хадгалаад, хэрэгтэй үедээ задлан гаргадаг.



