Yandex Research создал сервис для запуска большой языковой модели на смартфоне или ПК

Сотрудник научного отдела «Яндекса» Владимир Малиновский разработал сервис, позволяющий запустить большую языковую модель с 8 млрд параметров «на обычном компьютере или смартфоне» — через интерфейс любого браузера. Об этом Sostav сообщили в «Яндексе».

Там утверждают, такой подход может «значительно сократить» расходы компаний, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле.

Исходный код проекта Владимир Малиновский опубликовал в свободном доступе на GitHub.

На специальной странице можно протестировать сервис. При запуске на устройство пользователя из облака загружается модель Llama 3.1−8B, её размер уменьшен в шесть раз — до 2,5 ГБ. После загрузки модель может работать без подключения к интернету.

Скорость ответов нейросети зависит от производительности устройства. Так, на MacBook Pro с процессором M1 она составляет 1,5 токена в секунду или 3−4 символа.

Программа написана на языке Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

В основе сервиса — технология сжатия нейросетей AQLM. Её разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024-го. Технология помогла перенести все вычисления на устройство и отказаться от мощных графических процессоров.

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Sostav.Школа

Лекторий

Лицо рынка

Письмо деду морозу

Мнение рынка

Интервью

Шкала эффективности рекламы

Итоги года 2024

Выбор редакции

Рейтинг медиаагентств 2024

ТОП-30 крупнейших рекламодателей России 2024

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Форум

Блоги

Sostav в соцсетях

Yandex Research создал сервис для запуска большой языковой модели на смартфоне или ПК

Исходный код проекта опубликовали на GitHub