Все модели
Видео· kuaishou

🎬Kling 2.6 (Native Audio)

Kling 2.6: синхронные диалоги, ambient, SFX в одном проходе

Описание

Kling 2.6 (Native Audio)

Kuaishou Kling 2.6 — модель Kling с акцентом на синхронный звук в одном проходе: при включённом флаге sound диалоги, окружение и SFX генерируются вместе с видео. Топовый вариант для ASMR, talking-head и продуктовых демо со звуком.

ТипВидео (text-to-video, image-to-video)
Автор моделиKuaishou (Kling AI 2.6)
Длительность5 или 10 секунд
Цена56 / 110 / 110 / 220 токенов (см. ниже)
Пропорции16:9, 9:16, 1:1
ЗвукНативный, синхронный


Для чего она

Kling 2.6 — это модель, заточенная именно под качество звука. Если Veo 3.1 даёт лучшую картинку, а Kling 3.0 — лучший нарратив, то 2.6 — лучший звук:

  • Чистый аудио-микс. Голос, окружающие звуки и SFX — разные слои, не сливаются в кашу. Лучше отделение фонового шума от речи.
  • Lip-sync «как у людей». Точное совпадение с движением губ.
  • Реалистичные звуковые эффекты. Падающие предметы, шум воды, шаги по разному покрытию — модель «слышит» сцену.
  • Понимание тона и темпа. Промпт «спокойный, размеренный голос» работает; «эмоциональный, на повышенных» — тоже.
  • Пение. Модель умеет петь с контролем тона и темпа (нестабильно, но единственная в каталоге).

Когда брать Kling 2.6:

  • ASMR-ролики с детальным звуком.
  • Talking-head с говорящим персонажем (один маркетолог в кадре).
  • Продуктовые демо со звуком открытия упаковки, нажатия кнопки и т.д.
  • Короткие сценки с реалистичным окружением (дождь, кухня, улица).
  • Где звук важнее визуальной сложности.

Когда брать что-то другое:

  • Нужна сцена со сменой плана и мульти-кадровый нарратив → Kling 3.0.
  • Нужен дешёвый 1080p без обязательного аудио → Kling 2.5 Turbo Pro.
  • Кинематографический фотореализм → Veo 3.1 Quality.

Что задаёте при запуске

  • Промпт — описание сцены и/или речи. До 1000 символов.
  • Длительность5 или 10 секунд.
  • Соотношение сторон16:9, 9:16, 1:1.
  • Звук — флаг (по умолчанию выключен, чтобы не платить лишнего). Включайте, когда звук нужен.
  • Стартовый кадр — опциональное изображение для image-to-video. Если приложено, модель оживляет именно его.

Цена

Тариф зависит от длительности и наличия звука:

Без звукаСо звуком
5s56 токенов110 токенов
10s110 токенов220 токенов

Аудио увеличивает цену примерно в 2×. Если звук не нужен — не включайте флаг.


Сценарии (use cases)

Talking head

«Маркетолог в кадре говорит: "Запускаем новый продукт"». Получается человек в кадре с lip-sync.

ASMR

«Близкий план: руки складывают свитер. Звуки трения ткани, тихое дыхание». Чистая ASMR-дорожка плюс соответствующий визуал.

Продуктовое демо

«Руки распаковывают коробку с гаджетом. Звуки картонной коробки, шуршание плёнки, щелчок защёлки». Готовое короткое видео-анбоксинг.

Сценки с диалогом двух героев

«Двое за столом в кафе. Девушка: "А ты вернёшься?". Парень отвечает после паузы: "Да"». Реплики назначаются на персонажей.


Советы по промптингу

  • Назначайте реплики ролям. «Парень говорит: "..."», «Девушка отвечает: "..."» — модель различает спикеров.
  • Описывайте окружающие звуки явно. «Тихий шум дождя за окном», «гул толпы», «капает кран» — попадёт в саундтрек.
  • Длинный текст не помещается в 10 секунд. Учитывайте темп речи: ~12–15 слов на 5 секунд, ~25–30 на 10 секунд.
  • Для image-to-video опишите, что происходит в кадре, а не как выглядит — это уже на референсе.
  • Тон голоса задаётся словами. «Спокойно», «с улыбкой», «с раздражением» — отрабатывается.

Ограничения

  • Только 5 или 10 секунд, без шагов. Нужны промежуточные значения — возьмите Kling 3.0.
  • Без мульти-кадровых сцен — это режим одной камеры.
  • Sensitive-контент отсекается модерацией.
  • Пение — нестабильное; для музыки лучше использовать специализированный TTS/musicgen.

FAQ

Чем 2.6 отличается от 3.0?

2.6 заточена под чистый аудио-микс в одной камере. 3.0 умеет мульти-кадровые сцены, поддерживает 5 языков с диалектами и гибкую длительность 3–15 с. Если нужен богатый звук в одной сцене — берите 2.6, если нарратив — 3.0.

Чем 2.6 отличается от Veo 3.1?

Veo 3.1 — про кинематографический визуал; звук там experimental. Kling 2.6 — про звук в первую очередь. Картинка ниже уровнем, чем у Veo Quality.

Сколько стоит со звуком и без?

5s без звука — 56 токенов, со звуком — 110. 10s без звука — 110, со звуком — 220.

Какие языки поддерживаются?

Основные — английский и китайский. На других языках TTS работает, но lip-sync менее точный. Если нужна явная поддержка диалогов на 5 языках с диалектами (испанский, акценты английского и т.д.) — смотрите Kling 3.0.

Можно ли получить пение?

Технически да, но результат нестабильный. Для музыкальных задач это не основной инструмент.

Примеры

19 мая, 00:49
19 мая, 00:12

Попробуйте Kling 2.6 (Native Audio) прямо сейчас

Параметры готовы, осталось задать промпт и нажать «Сгенерировать».

Открыть в редакторе