Сотрудник научного отдела «Яндекса» Владимир Малиновский разработал сервис, позволяющий запустить большую языковую модель с 8 млрд параметров «на обычном компьютере или смартфоне» — через интерфейс любого браузера. Об этом Sostav сообщили в «Яндексе».
Там утверждают, такой подход может «значительно сократить» расходы компаний, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле.
Исходный код проекта Владимир Малиновский опубликовал в свободном доступе на GitHub.
На специальной странице можно протестировать сервис. При запуске на устройство пользователя из облака загружается модель Llama 3.1−8B, её размер уменьшен в шесть раз — до 2,5 ГБ. После загрузки модель может работать без подключения к интернету.
Скорость ответов нейросети зависит от производительности устройства. Так, на MacBook Pro с процессором M1 она составляет 1,5 токена в секунду или 3−4 символа.
Программа написана на языке Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.
В основе сервиса — технология сжатия нейросетей AQLM. Её разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024-го. Технология помогла перенести все вычисления на устройство и отказаться от мощных графических процессоров.