2024 оны 12-р сард Хятадын DeepSeek баг нэг зүйл хийсэн. 671 тэрбум параметртай модель бүтээгээд, сургалтын зардал нь $5.5 сая гэж зарласан. GPT-4-ийн зардал $100 сая орчим гэж тооцоолдог. Benchmark-ийн оноогоор бараг ижил. Зарим дээр илүү. Яаж?

Энэ бол маркетингийн нэхэмжлэл биш. Техникийн цаад шийдлүүд нь нийтлэгдсэн, нээлттэй, хэн ч унших боломжтой. Энэ нийтлэлд би тэдгээрийг задалж, Америкийн загваруудтай хэрхэн ялгаатай болохыг тайлбарлана.

Dense Transformer vs Mixture of Experts архитектурын харьцуулалт
Зүүн: Dense Transformer — бүх параметр идэвхждэг. Баруун: MoE — зөвхөн хэрэгтэй expert-ууд л ажилладаг

Тоонуудаас эхэлье

Яриагаа тодорхой тоонуудаас эхлэх нь зүйтэй. Үүний дараа яагаад ийм ялгаатай болохыг техникийн талаас нь задлана.

Сургалтын зардлын харьцуулалт
$100 сая vs $5.5 сая — ижил түвшний загвар, 20 дахин бага зардал
Загвар Сургалтын зардал GPU цаг Чип
DeepSeek-V3 $5.5 сая 2.78 сая цаг 2,048x H800
Llama 3.1 405B ~$92-123 сая 30.8 сая цаг 16,000x H100
GPT-4 ~$50-100+ сая Тодорхойгүй ~25,000x A100

Нэг зүйлийг тодруулах хэрэгтэй. DeepSeek-ийн $5.5 сая гэдэг тоо нь зөвхөн эцсийн амжилттай сургалтын compute зардал. Өмнөх туршилтууд, R&D, цалин, дэд бүтцийн зардлыг оруулаагүй. Бүгдийг нийлүүлбэл $10-20 сая орчим болно гэж тооцоолдог. Гэхдээ тэр ч гэсэн GPT-4-ийн 5-10 дахин бага.

671B
Нийт параметр
37B
Идэвхтэй параметр
5.5%
Идэвхжлийн хувь

Тэгэхээр 671 тэрбум параметртай загвар токен бүрд ердөө 37 тэрбумыг л идэвхжүүлдэг. 5.5 хувь. Үлдсэн 94.5% нь унтаж байна. Яаж ийм юм боломжтой вэ?


Mixture of Experts: бүгдийг идэвхжүүлэх шаардлагагүй

Америкийн анхны том загварууд (GPT-3, GPT-4-ийн нэг хувилбар, Claude, Llama) дийлэнхдээ dense transformer архитектур дээр суурилсан. Энэ нь токен бүрд загварын бүх параметр идэвхждэг гэсэн үг. 405 тэрбум параметртай бол токен бүрд 405 тэрбум параметр ажилладаг.

DeepSeek өөр замаар явсан. DeepSeekMoE гэж нэрлэсэн архитектур нь олон жижиг "expert" сүлжээнүүдийг нэг загварт нэгтгэдэг. Токен ирэхэд router сүлжээ нь тухайн токенд хамгийн тохиромжтой цөөн хэдэн expert-ийг сонгож идэвхжүүлдэг. Бусад expert-ууд ажиллахгүй.

D

Dense Transformer

GPT-4, Claude, Llama

Бүх параметр, токен бүрд идэвхждэг. Хялбар, тогтвортой. Гэхдээ маш их compute шаарддаг. 405B загвар = токен бүрд 405B параметрын тооцоолол.

S

DeepSeekMoE

DeepSeek-V2, V3

Expert-уудыг нарийн хуваасан. Shared expert нь бүх токенд хэрэглэгдэж, routed expert-уудаас зөвхөн цөөхнийг сонгодог. 671B загвар, гэхдээ токен бүрд ердөө 37B.

Auxiliary-loss-free load balancing

MoE-ийн хамгийн том асуудал нь зарим expert олон токен авч, зарим нь огт ажилгүй суух явдал. Өмнөх MoE загварууд (Mixtral гэх мэт) үүнийг шийдэхийн тулд auxiliary loss нэмдэг — expert-уудыг жигд ачаалахыг албадах шийтгэлийн функц.

Гэхдээ энэ нэмэлт loss нь загварын гол чанарыг бууруулдаг. DeepSeek үүнийг бүрэн арилгасан. Тэд auxiliary loss-гүйгээр load balancing хийдэг шинэ арга зохиосон. Expert-уудын ачааллыг bias term-ээр динамикаар зохицуулдаг, загварын суралцах чадварт саад болохгүйгээр.

MoE нь шинэ зүйл биш — Google-ийн Switch Transformer, Mistral-ийн Mixtral бүгд ашигласан. Гэхдээ DeepSeek-ийн хэрэгжүүлэлт хамгийн нарийн. Expert-уудыг бусдаас жижиг, олон болгосон нь илүү нарийвчлалтай routing хийх боломж өгсөн.


Multi-head Latent Attention: санах ойн асуудлыг шийдсэн нь
KV Cache шахалтын зарчим
Том KV матриц нь latent vector руу шахагддаг — санах ойн хэрэглээ 93% буурдаг

Transformer загваруудын хамгийн том inference-ийн саад бол KV cache. Загвар текст үүсгэх бүрд өмнөх токен бүрийн Key, Value утгуудыг санах ойд хадгалах шаардлагатай. Контекст урт болох тусам энэ cache асар их санах ой зарцуулдаг.

Америкийн загварууд үүнийг хэрхэн шийддэг вэ? Llama 2, 3 нь Grouped Query Attention (GQA) ашигладаг. Олон query head нэг K, V head-ийг хуваалцдаг. Ингэснээр KV cache-ийг ойролцоогоор 87.5% хүртэл бууруулдаг. Сайн шийдэл.

DeepSeek өөр замаар явсан. Multi-head Latent Attention (MLA) нь KV cache-ийг бүхэлд нь бага хэмжээст latent vector руу шахдаг. K, V утгуудыг тус тусдаа хадгалахын оронд нэг жижиг вектор хадгалаад, хэрэгтэй үедээ задлан гаргадаг.

93.3%
KV cache-ийн бууралт