Ученые из «Яндекса», НИУ ВШЭ, MIT, KAUST и ISTA представили новый метод быстрого сжатия больших языковых моделей (LLM). Решение позволяет уменьшить размер модели без потери качества и запустить ее на более доступных устройствах — смартфоне или ноутбуке. Об этом Sostav сообщил представитель «Яндекса».
Теперь сжатые версии таких опенсорсных моделей, как DeepSeek-R1 и Llama 4 Maverick, которые не могли быть запущены на устройствах без мощных серверов, можно тестировать и внедрять на смартфонах и ноутбуках. Это делает технологии доступными для более широкого круга пользователей, включая небольшие компании и независимых разработчиков.
Метод HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) позволяет сжимать нейросети без использования дополнительных данных и сложной оптимизации параметров. Как пояснили в компании, такой подход улучшает баланс между качеством, размером модели и ее вычислительными требованиями, обеспечивая работу на устройствах с ограниченными ресурсами.
Эксперименты разработчиков на популярных моделях, таких как Llama 3 и Qwen2.5, показали, что HIGGS значительно улучшает качество моделей при меньшем размере по сравнению с другими методами квантизации, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization).
HIGGS доступен разработчикам на Hugging Face и GitHub.
Ранее «Яндекс» открыл доступ к Instruct-версии своей нейросети YandexGPT 5 Lite из последнего семейства нейросетей компании. Версия доступна для использования как в некоммерческих, так и в коммерческих целях.