Сегодня на конференции разработчиков Google I/O компания сделала конкретный шаг к достижению своей цели с помощью Gemini Omni, новой семьи мультимодальных моделей, которые, по словам генерального директора Google Сундара Пичаи, смогут "создавать что угодно из любого ввода". Omni начнет с видео. Пользователи теперь могут комбинировать изображения, аудио, видео и текст, и вместо простого соединения этих входных данных Omni анализирует их все, чтобы создать согласованный вывод. Результатом являются высококачественные видео, которые отражают понимание физики, культуры, истории и науки. Omni также позволяет пользователям редактировать фотографии с помощью простых текстовых команд, а не сложного программного обеспечения для редактирования, подобно Nano Banana от Google.

У Google уже есть специализированная видеомодель Veo, которая позволяет пользователям превращать текст и изображения в видео и даже управлять и настраивать аватары. Но директор по управлению продуктами Google DeepMind Николь Бричтова заявила, что сегодняшнее обновление — это больше, чем просто обновление Veo: "Это следующий шаг в направлении объединения интеллекта Gemini с возможностями рендеринга наших медийных моделей". Один из примеров, который главный технолог DeepMind Корай Кавукчоглу привел журналистам на брифинге в понедельник: когда Omni предоставили простой запрос, такой как "объяснение в стиле пластилиновой анимации о сворачивании белков", она быстро создала видео с покадровым объяснением и закадровым голосом, который говорил: "Белки начинаются как цепочки аминокислот. Они складываются в узоры, такие как альфа-спираль и плоские участки, называемые бета-листами, образуя идеальную трехмерную форму".

Долгосрочное видение для Omni более широкое и включает использование модели для таких задач, как генерация изображений из аудио или аудио из видео. "Когда мы впервые объявили о Gemini, это была наша первая AI-модель, которая была изначально мультимодальной", — сказал Пичаи во время брифинга. "Мы знали, что обучение ее на комбинации текста, кода, аудио, изображений и видео даст ей более глубокое понимание мира. С мировыми моделями AI переходит от предсказания текста к моделированию реальности. Gemini Omni — это следующий шаг в этом направлении".

В рамках выпуска пользователи также смогут создавать видео с собственными цифровыми аватарами — что OpenAI популяризировала в своем ныне несуществующем приложении Sora с помощью Cameos. Чтобы предотвратить создание дипфейков, пользователи должны будут пройти специальный процесс регистрации продукта, который включает запись себя и произнесение серии чисел, по словам Бричтовой. Затем аватар сохраняется для будущего использования. Кроме того, все видео, созданные с помощью Omni, будут включать цифровой водяной знак Google SynthID, который позволяет пользователям проверять, были ли видео созданы с помощью продуктов Gemini.

Первая модель в семействе — это Gemini Omni Flash, которая будет запущена сегодня в приложении Gemini, YouTube Shorts и AI творческой студии Flow. Flash будет способен рендерить 10 секунд видео, что, по словам Бричтовой, не является ограничением модели, а скорее решением, основанным как на желании сделать его доступным для большего числа пользователей, так и на предположении, что большинство пользователей пока не захотят создавать более длинные видео. Однако более длительные видео уже запланированы на ближайшее будущее. Google, похоже, позиционирует Omni Flash как инструмент для потребителей. Примеры, которые Бричтова и Гейб Барт-Марон, инженер-исследователь из DeepMind, привели в разговоре с TechCrunch, касались личного использования: создание видео о себе, получающем награду или отправляющемся на Луну, или удаление прохожего из фона видео, снятого в отпуске. Барт-Марон выразился проще: "Это как персонализированные мемы".

"Мы определенно сосредоточились на том, чтобы сделать это простым в использовании для потребителей", — сказала Бричтова. "Не многие видеомодели преодолели этот разрыв с потребителями, поэтому это наш шаг в этом направлении". Простота использования имеет оговорку: Бричтова и Барт-Марон отметили, что команды для редактирования должны быть очень конкретными, иначе Omni рискует чрезмерно редактировать или случайно изменять элементы, которые пользователь хотел сохранить — проблема, с которой могли столкнуться пользователи Nano Banana. Несмотря на краткосрочную ориентацию на потребителей, очевидны и корпоративные, и творческие возможности Omni, и Google сделает Omni доступным через API в ближайшие недели. Инструмент для генерации аватаров — возможность, доступная сегодня на Shorts — это то, что Google ожидает, что подхватят создатели контента. Но в более широком смысле, комплексный мультимодальный рабочий процесс может стать преобразующим для рекламодателей и кинематографистов. Стартап Luma AI разрабатывает нечто подобное — агентский инструмент, который может генерировать всю рекламную кампанию на основе короткого брифа и изображения продукта, используя свою собственную "унифицированную" модель. "Мы действительно гордимся возможностями рендеринга текста модели, что очень полезно для таких вещей, как реклама", — сказала Бричтова. "Если вы хотите разместить продукт где-то или даже просто слоган, это должно быть точно… Мы определенно ожидаем, что кинематографисты и другие виды создателей будут использовать эту модель также". Более профессиональные случаи использования могут быть лучше обслужены моделью Omni Pro, которая должна лучше выполнять все задачи Omni. Google пока не сообщила, когда выпустит Pro, но Бричтова сказала, что это произойдет, когда "мы почувствуем, что достигли точки, где у нас есть качественный скачок выше Flash".

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *