14 мая американская Google провела ежегодную конференцию для разработчиков Google I/O. Глава корпорации Сундар Пичаи и другие представители компании среди прочего рассказали о новых возможностях Gemini на Android, анонсировали ИИ-функции в различных продуктах, а также показали прототип ИИ-помощника Project Astra и генератор видео Veo — «ответ на Sora от OpenAI». Sostav собрал основные анонсы конференции.
Сундар Пичаи представил экспериментальную ИИ-функцию Ask Photos («Запросить фотографии») в «Google Фото». Она позволяет искать на фотографиях и видео людей, домашних животных, места и другие объекты. Функция работает на основе ИИ-модели Gemini и станет доступна пользователям «в ближайшие месяцы».
В ходе презентации Пичаи продемонстрировал, как работает эта функция. Он задал приложению вопрос: «Какой номерной знак у моего автомобиля?». Приложение «Google Фото» выдало фактический номер машины в текстовом ответе, прикрепив подтверждающий снимок из галереи.
Кроме того, Пичаи анонсировал улучшенную версию своей языковой модели Gemini 1.5 Pro. Она сможет анализировать вдвое больше информации, чем ранее — до 2 млн токенов.
Google также решила внедрить Gemini 1.5 Pro в боковую панель Gmail, «Документов», «Диска», «Таблиц» и «Презентаций». Доступ к обновлённой версии ИИ-модели этим летом получат платные подписчики.
Также на мероприятии представили новую модель ИИ Gemini 1.5 Flash. Она сопоставима по мощности с Gemini 1.5 Pro, но оптимизирована для «узких, высокочастотных задач с малой задержкой». За счёт этого модель способна быстрее генерировать ответы. В десктопном появится Chrome Версия Gemini Nano.
В рамках Google I/O 2024 компания также анонсировала Project Astra — мультимодального ИИ-помощника. Он будет не только «общаться» с пользователем, но и выполнять ряд других функций. В частности, Project Astra в реальном времени сможет распознать объекты в кадре прямо в приложении камеры.
Google также отчиталась о «прогрессе» в разработке решений для генерации видео и изображений. Компания представила Imagen 3 — генеративную ИИ-модель для создания изображений. Она лучше понимает текстовые запросы, при этом меньше ошибается и позволяет генерировать более чёткий текст на изображениях.
Ещё одна новинка на Google I/O 2024 — генеративная модель ИИ Veo — «ответ Google на Sora от OpenAI», как подметил The Verge. Модель может создавать ролики с разрешением 1080p и продолжительностью более одной минуты. Процесс генерации будет запускаться с помощью подсказок пользователя в виде текста, картинок или видео. Ролики можно будет создавать в разных стилях.
Напомним, разработчик чат-бота ChatGPT, американская компания OpenAI, представила свою новую нейросеть Sora в феврале. ИИ-модель генерирует реалистичные видеоролики по текстовому запросу пользователя.