DeepSeek R1 w Copilot+ od Microsoftu
DeepSeek zdominował świat mobilny i teraz zaskakująco wkracza na platformę Windows, uzyskując pełne wsparcie od Microsoftu. Wczoraj gigant oprogramowania dodał model DeepSeek R1 do swojej Azure AI Foundry, co umożliwia programistom testowanie oraz budowanie aplikacji i usług chmurowych.
Dziś Microsoft ogłosił, że wprowadza wersje distylowane modelu R1 do komputerów Copilot+. Te modele będą początkowo dostępne w urządzeniach z chipami Snapdragon X, a następnie z procesorami Intel Core Ultra 200V oraz komputerami opartymi na AMD Ryzen AI 9.
Pierwszym modelem, który zostanie udostępniony, jest DeepSeek-R1-Distill-Qwen-1.5B, czyli model z 1.5 miliarda parametrów, a wkrótce pojawią się także większe i bardziej zaawansowane modele 7B i 14B. Będą one dostępne do pobrania z zestawu narzędzi AI Microsoftu.
Microsoft musiał dostosować te modele, aby zoptymalizować ich działanie na urządzeniach z jednostkami NPU. Operacje silnie polegające na dostępie do pamięci są wykonywane przez CPU, podczas gdy operacje intensywne obliczeniowo, takie jak blok transformatora, są realizowane przez NPU. Dzięki tym optymalizacjom, Microsoft osiągnął szybki czas realizacji pierwszego tokena (130 ms) oraz przepustowość na poziomie 16 tokenów na sekundę dla krótkich zapytań (poniżej 64 tokenów).
Warto zaznaczyć, że token przypomina samogłoskę (co istotne, jeden token zazwyczaj składa się z więcej niż jednego znaku). Microsoft jest silnym zwolennikiem i głęboko zainwestowanym partnerem OpenAI (twórców ChatGPT i GPT-4o), ale wydaje się, że nie ma ulubieńców – jego Azure Playground obsługuje modele GPT (OpenAI), Llama (Meta), Mistral (firma AI), a teraz także DeepSeek.
Dla tych, którzy wolą lokalne rozwiązania AI, warto najpierw pobrać zestaw narzędzi AI dla VS Code. Z tego miejsca powinno być możliwe pobranie modelu lokalnie (na przykład „deepseek_r1_1_5” to model 1.5B). Na koniec, spróbuj w Playground i przekonaj się, jak inteligentna jest ta distylowana wersja R1.
„Destylacja modelu”, nazywana czasem „destylacją wiedzy”, to proces przenoszenia jak największej ilości wiedzy z dużego modelu AI (pełny DeepSeek R1 ma 671 miliardów parametrów) do mniejszego modelu (np. 1.5 miliarda parametrów). Jakkolwiek proces ten nie jest doskonały, a model distylowany jest mniej wydajny niż pełny model, jego mniejszy rozmiar pozwala na uruchomienie bezpośrednio na sprzęcie konsumenckim, zamiast dedykowanego sprzętu AI, który kosztuje dziesiątki tysięcy dolarów.