Все модели
Видео· bytedance

💃Seedance 2.0

ByteDance Seedance 2.0: native AV, 1080p, multimodal

Описание

Seedance 2.0

ByteDance Seedance 2.0 — мультимодальная видео-модель с нативным синхронным звуком, до 1080p и приёмом сразу текста, изображений, видео и аудио как референсов. Эталон для e-commerce и сценариев, где важна точная сохранность продукта/лица/логотипа.

ТипВидео (text-to-video, image-to-video, reference-to-video)
Автор моделиByteDance (Seedance 2.0)
Длительность4–15 секунд
Разрешения480p, 720p, 1080p
Пропорции16:9, 9:16, 1:1, 4:3, 3:4, 21:9, авто
РеференсовДо 9 изображений, до 3 видео, до 3 аудио
ЗвукНативный, синхронный (можно выключить)
Ценаот 12 ток./с (см. таблицу)


Для чего она

Seedance 2.0 — это модель, заточенная под продакшен-нагрузку, в которой важна точность: логотип не «плывёт», лицо человека не меняется между кадрами, текст на упаковке остаётся читаемым.

  • Multimodal вход. Можно дать текст + до 9 изображений одновременно (плюс на апстриме поддерживаются видео и аудио как референсы). Модель совмещает все данные в одну сцену.
  • Native audio с lip-sync. Диалоги, окружение, SFX синхронизируются с действием. Beat-matched редактирование для музыкальных клипов.
  • Стабильная физика. Гравитация, инерция, движение тканей, жидкостей — выглядит правдоподобно даже на быстрых сценах.
  • Сохранение идентичности. Лица, логотипы, фирменные шрифты, цвета — удерживаются между кадрами. Это редкость даже среди премиум-моделей.
  • Multi-shot нарратив. Понимает смену плана внутри одной сцены, удерживает героя и логику камеры через переход.
  • Гибкая длительность. 4–15 секунд с шагом 1 секунда.

Когда брать Seedance 2.0:

  • E-commerce: товарка, продуктовые видео-карточки, демо.
  • Реклама и кампании, где критична сохранность бренда.
  • Music videos и beat-matched ролики.
  • Сценки с реальным человеком, где важно, чтобы лицо не «плыло».
  • Сторибоды и предпродакшен для рекламы.
  • Преобразование наброска/раскадровки в кинематографический превью.

Когда брать что-то другое:

  • Нужен максимальный фотореализм рекламы → Veo 3.1 Quality (Seedance ему ближе, но Veo чуть лучше на крупных планах).
  • Нужен мульти-кадровый нарратив до 15s с диалогом на 5 языках → Kling 3.0.
  • Дёшево и для соцсетей → Veo 3.1 Fast или Kling 2.5 Turbo Pro.

Цена и разрешения

Тариф зависит от разрешения и наличия референса. Если приложили хотя бы одно референсное изображение — стоимость ниже (модель ему доверяет).

РазрешениеБез референсаС референсом
480p19 ток./с12 ток./с
720p41 ток./с25 ток./с
1080p102 ток./с62 ток./с

Примеры:

  • 5 секунд, 720p, с референсом — 125 токенов
  • 10 секунд, 720p, с референсом — 250 токенов
  • 10 секунд, 1080p, без референса — 1020 токенов
  • 15 секунд, 480p, с референсом — 180 токенов

Закладывайте референс везде, где это уместно — он почти вдвое снижает цену и одновременно улучшает результат.


Что задаёте при запуске

  • Промпт — описание сцены. До 20 000 символов; можно подробно описывать движение, свет, эмоцию, действия.
  • Длительность — 4, 5 … 15 секунд.
  • Разрешение480p, 720p (по умолчанию), 1080p.
  • Соотношение сторон16:9, 9:16, 1:1, 4:3, 3:4, 21:9 или авто (модель подбирает сама).
  • Image-to-video. Можно задать стартовый кадр и опционально конечный кадр — модель «оживит» переход между ними.
  • Мультимодальные референсы — до 9 изображений + до 3 видео (2–15 c каждое, суммарно ≤ 15 c) + до 3 аудио (mp3/wav, до 15 МБ).
  • Звук — флаг, по умолчанию включён.
  • Web search — даёт модели подтянуть знания из сети (опционально).
  • NSFW-фильтр — дополнительная проверка контента (опционально).

Сценарии image-to-video (со стартовым кадром) и reference-to-video (с любыми референсами) взаимоисключающие — апстрим запрещает их сочетать, форма проверит это до отправки.


Сценарии

E-commerce карточка товара

Загрузите фото товара → «руки распаковывают коробку, поворачивают устройство к камере, нажимают на кнопку — экран загорается». Логотип и форма сохранятся.

Music video

Длительный промпт с описанием сцены + указание ритма. Beat-matched монтаж получается естественным.

Talking head с продуктом

Референс лица + промпт «человек держит продукт у плеча и говорит: "Это решит вашу проблему"». Лицо узнаваемое, lip-sync на месте.

Превью раскадровки

Несколько кадров раскадровки как референсы + промпт со сценой — получите 10-секундное видео-превью.


Советы по промптингу

  • Кладите референсы. Не только из-за экономии: модель лучше отрабатывает сцену с конкретным «образцом» персонажа/продукта.
  • Описывайте движение, а не статичный кадр. «Рука медленно открывает крышку», «камера наезжает», «персонаж поворачивается».
  • Для соцсетей — 720p и 9:16. Это самое популярное сочетание. 1080p — для финального продакшена.
  • Звук — отдельной строкой. «Тихая фоновая музыка», «звук открывания упаковки», «диалог: персонаж говорит «...»». Так модель собирает аудио-микс правильно.
  • Длинные промпты работают. Не бойтесь описывать сцену на 500–1000 слов — Seedance держит контекст.

Ограничения

  • 1080p без референса — самый дорогой режим (102 ток./с). Если можете обойтись 720p или приложить референс — экономия в 2–4 раза.
  • Sensitive-контент проходит модерацию.
  • Анимационные стили (мульт, аниме) — не профильная задача; модель лучше работает на реалистичных сценах.

FAQ

Чем 2.0 отличается от 1.5?

2.0 — мультимодальная (text + image + video + audio как референсы), native AV, более точная физика. 1.5 в каталоге не подключена.

Почему с референсом дешевле?

Модель использует его как «опору» и тратит меньше вычислений на выдумывание идентичности. Производитель закладывает это в тариф.

Сколько референсов реально полезны?

2–4 для большинства задач: один для персонажа, один-два для продукта, ещё один для мудборда. До 9 — потолок.

Стоит ли всегда брать 1080p?

Если идёт в эфир или на крупный экран — да. Если для веба и соцсетей — 720p достаточно и дешевле в 2 раза.

Lip-sync работает на русском?

TTS работает, но lip-sync оптимизирован под китайский и английский. Для русского talking-head попробуйте Kling 3.0.

Можно ли получить виртуального человека в кадре?

Да — это один из ключевых сценариев Seedance 2.0. Загрузите фото лица как референс, опишите действие — получите видео.

Примеры

19 мая, 00:16

Попробуйте Seedance 2.0 прямо сейчас

Параметры готовы, осталось задать промпт и нажать «Сгенерировать».

Открыть в редакторе