«Яндекс» представил новую версию технологии фотоперевода на базе нейросетей. Разработчики применили большую языковую модель, чтобы переводить тексты на фото и изображениях с учётом контекста. Об этом Sostav сообщили в компании.
Там уточнили, что технология пригодится, например, в поездке, если нужно перевести меню в ресторане, или для работы, чтобы разобраться в нюансах технической документации на иностранном языке.
«Яндекс» также улучшил визуализацию перевода. Теперь, как утверждают в компании, текст «легче» читается и «больше похож» на оригинальную вёрстку. Дело в том, что технология стирает оригинальный текст с изображения и располагает переведенный поверх него: алгоритмы подбирают шрифт, размер и цвет букв, чтобы переведённые изображения выглядели наиболее естественно.
Обновление уже доступно в «Переводчике» и «Браузере», а позже появится в «Умной камере», добавили в «Яндексе».
Для преобразования текстов на изображениях разработчики создали отдельную модель семейства YandexGPT, адаптированную для задач перевода с английского на русский язык. Для обучения модели использовалось множество пар оригинальных и переведенных текстов. Модели показывали примеры хороших и плохих переводов, чтобы она училась подражать эталонным, избегала ошибок и не добавляла в тексты несуществующие детали.
Модель семейства YandexGPT понимает стиль оригинального текста и может сохранить игру слов, например, на фотографиях рекламных слоганов или газетных заголовков.
«Новая технология на базе нейросетей позволила подбирать более точные формулировки во фразах с несколькими значениями и не переводить выражения дословно. За счёт этого выросло как качество перевода простых текстов, таких как состав косметической продукции, так и сложных — публицистических статей, энциклопедий и инструкций. Перевод на основе большой языковой модели работает для изображений с текстом на английском», — пояснили в «Яндексе».
Ранее «Яндекс» представил мобильное приложение «Алиса». В нем можно общаться с виртуальным помощником, работать с текстами и генерировать изображения с помощью визуальной нейросети YandexART 2.0.