Сбербанк представил обновлённую версию своей модели для генерации изображений по текстовым запросам — Kandinsky 4.1 Image.
По информации из пресс-службы, новая версия обеспечивает более высокое качество и детализацию изображений, а также лучше интерпретирует текстовые инструкции пользователей.
В дополнение к этому, для творческих профессионалов теперь доступен ИИ-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет вносить изменения в изображения на основе текстовых указаний.
MALVINA может удалять ненужные объекты или текст, менять цвет волос или возраст человека на фото, реставрировать и раскрашивать старые снимки, заменять фон и даже изменять сезон на изображении.
При этом модель старается сохранить все ключевые визуальные элементы, такие как формы, лица и фон, включая мельчайшие детали и текстуры оригинала.
На этапе предварительного обучения команда обработала более 10 миллионов примеров, а для дообучения (SFT-фаза) использовала свыше 1,5 миллиона разнообразных изображений, включая как реальные фотографии с ручной обработкой, так и синтетические данные, созданные специальными моделями.
Обновлённые нейросети Сбера можно протестировать в телеграм-ботах GigaChat и Kandinsky, а также в VK-боте Kandinsky.
Напомним, что Kandinsky — это генеративная нейросеть от Сбера, предназначенная для создания изображений и видео на основе текстовых описаний.
Модель поддерживает русский язык, имеет открытый исходный код и может интегрироваться в сторонние интерфейсы.
С момента своего первого выпуска в 2022 году система активно развивается, добавляя новые функции для дизайнеров и обычных пользователей.