Кинеската компанија за вештачка интелигенција DeepSeek го објави својот најнов „експериментален“ модел, за кој тврди дека е поефикасен во учењето и подобар во обработката на долги низи од текст отколку претходните итерации на големи јазични модели.
Компанијата со седиште во Хангжу го нарече DeepSeek-V3.2-Exp „среден чекор кон нашата архитектура од следната генерација“ во објава на форумот за програмери Hugging Face.
Архитектурата веројатно ќе биде најзначајното издание на производот на DeepSeek откако V3 и R1 ги шокираа Силиконската долина и технолошките инвеститори надвор од Кина.
Моделот V3.2-Exp вклучува механизам наречен DeepSeek Sparse Attention, за кој кинеската компанија вели дека може да ги намали трошоците за пресметување и да ги подобри перформансите на некои видови модели. DeepSeek објави на X во понеделник дека ги намалува трошоците за своите интерфејси за програмирање на апликации за „повеќе од 50 проценти“.
Иако е малку веројатно дека архитектурата од следната генерација на DeepSeek ќе ги потресе пазарите на начин на кој претходните верзии го направија тоа во јануари, сепак би можела да изврши значителен притисок врз домашните конкуренти како што е Qwen на Alibaba и американските конкуренти како OpenAI ако може да го повтори успехот на DeepSeek R1 и V3.
Ова би барало моделот да демонстрира високи перформанси, а воедно да бара само дел од ресурсите што конкурентите ги наплаќаат и трошат за обука на моделот.