Команда Сбербанка сообщила о скором выпуске новой версии фирменной нейросети для генерации видео — Kandinsky 4.1 Video. Первыми доступ к Kandinsky 4.1 Video получили участники технологической конференции GigaConf, а также некоторые художники и дизайнеры. Об этом заявил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев в рамках GigaConf.
Андрей Белевцев отметил:
Kandinsky 4.1 Video обеспечивает качественно новый уровень генеративного видео. Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента.
Модель Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720 х 576 пикселей) или HD (1280 х 720 пикселей) по текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с произвольным соотношением сторон.
В основе новой модели лежит архитектура диффузионного трансформера. Как отметили в Сбере, одним из факторов, позволивших улучшить качество модели, стало её дообучение (Supervised Fine-Tuning, SFT) на данных, подготовленных более чем 100 экспертами — дизайнерами, фотографами и художниками с профильным образованием.
Напомним, нейросеть Kandinsky Video, разработанная Сбербанком, представляет собой генеративную модель для создания видеороликов по текстовому описанию или изображению. Это первая в России технология подобного рода, ориентированная на создание реалистичного видео с движением объектов и фона. В ноябре 2023 года представлена первая версия модели, генерирующей видео продолжительностью до 8 секунд (512 х 512 пикселей, 30 кадров/с).