Видео· kuaishou

🎬Kling 2.6 (Native Audio)

Kling 2.6: синхронные диалоги, ambient, SFX в одном проходе

Открыть в редакторе

56за запуск

Описание

Kling 2.6 (Native Audio)

Kuaishou Kling 2.6 — модель Kling с акцентом на синхронный звук в одном проходе: при включённом флаге sound диалоги, окружение и SFX генерируются вместе с видео. Топовый вариант для ASMR, talking-head и продуктовых демо со звуком.


Тип	Видео (text-to-video, image-to-video)
Автор модели	Kuaishou (Kling AI 2.6)
Длительность	5 или 10 секунд
Цена	56 / 110 / 110 / 220 токенов (см. ниже)
Пропорции	16:9, 9:16, 1:1
Звук	Нативный, синхронный

Для чего она

Kling 2.6 — это модель, заточенная именно под качество звука. Если Veo 3.1 даёт лучшую картинку, а Kling 3.0 — лучший нарратив, то 2.6 — лучший звук:

Чистый аудио-микс. Голос, окружающие звуки и SFX — разные слои, не сливаются в кашу. Лучше отделение фонового шума от речи.
Lip-sync «как у людей». Точное совпадение с движением губ.
Реалистичные звуковые эффекты. Падающие предметы, шум воды, шаги по разному покрытию — модель «слышит» сцену.
Понимание тона и темпа. Промпт «спокойный, размеренный голос» работает; «эмоциональный, на повышенных» — тоже.
Пение. Модель умеет петь с контролем тона и темпа (нестабильно, но единственная в каталоге).

Когда брать Kling 2.6:

ASMR-ролики с детальным звуком.
Talking-head с говорящим персонажем (один маркетолог в кадре).
Продуктовые демо со звуком открытия упаковки, нажатия кнопки и т.д.
Короткие сценки с реалистичным окружением (дождь, кухня, улица).
Где звук важнее визуальной сложности.

Когда брать что-то другое:

Нужна сцена со сменой плана и мульти-кадровый нарратив → Kling 3.0.
Нужен дешёвый 1080p без обязательного аудио → Kling 2.5 Turbo Pro.
Кинематографический фотореализм → Veo 3.1 Quality.

Что задаёте при запуске

Промпт — описание сцены и/или речи. До 1000 символов.
Длительность — 5 или 10 секунд.
Соотношение сторон — 16:9, 9:16, 1:1.
Звук — флаг (по умолчанию выключен, чтобы не платить лишнего). Включайте, когда звук нужен.
Стартовый кадр — опциональное изображение для image-to-video. Если приложено, модель оживляет именно его.

Цена

Тариф зависит от длительности и наличия звука:

	Без звука	Со звуком
5s	56 токенов	110 токенов
10s	110 токенов	220 токенов

Аудио увеличивает цену примерно в 2×. Если звук не нужен — не включайте флаг.

Сценарии (use cases)

Talking head

«Маркетолог в кадре говорит: "Запускаем новый продукт"». Получается человек в кадре с lip-sync.

ASMR

«Близкий план: руки складывают свитер. Звуки трения ткани, тихое дыхание». Чистая ASMR-дорожка плюс соответствующий визуал.

Продуктовое демо

«Руки распаковывают коробку с гаджетом. Звуки картонной коробки, шуршание плёнки, щелчок защёлки». Готовое короткое видео-анбоксинг.

Сценки с диалогом двух героев

«Двое за столом в кафе. Девушка: "А ты вернёшься?". Парень отвечает после паузы: "Да"». Реплики назначаются на персонажей.

Советы по промптингу

Назначайте реплики ролям. «Парень говорит: "..."», «Девушка отвечает: "..."» — модель различает спикеров.
Описывайте окружающие звуки явно. «Тихий шум дождя за окном», «гул толпы», «капает кран» — попадёт в саундтрек.
Длинный текст не помещается в 10 секунд. Учитывайте темп речи: ~12–15 слов на 5 секунд, ~25–30 на 10 секунд.
Для image-to-video опишите, что происходит в кадре, а не как выглядит — это уже на референсе.
Тон голоса задаётся словами. «Спокойно», «с улыбкой», «с раздражением» — отрабатывается.

Ограничения

Только 5 или 10 секунд, без шагов. Нужны промежуточные значения — возьмите Kling 3.0.
Без мульти-кадровых сцен — это режим одной камеры.
Sensitive-контент отсекается модерацией.
Пение — нестабильное; для музыки лучше использовать специализированный TTS/musicgen.

FAQ

Чем 2.6 отличается от 3.0?

2.6 заточена под чистый аудио-микс в одной камере. 3.0 умеет мульти-кадровые сцены, поддерживает 5 языков с диалектами и гибкую длительность 3–15 с. Если нужен богатый звук в одной сцене — берите 2.6, если нарратив — 3.0.

Чем 2.6 отличается от Veo 3.1?

Veo 3.1 — про кинематографический визуал; звук там experimental. Kling 2.6 — про звук в первую очередь. Картинка ниже уровнем, чем у Veo Quality.

Сколько стоит со звуком и без?

5s без звука — 56 токенов, со звуком — 110. 10s без звука — 110, со звуком — 220.

Какие языки поддерживаются?

Основные — английский и китайский. На других языках TTS работает, но lip-sync менее точный. Если нужна явная поддержка диалогов на 5 языках с диалектами (испанский, акценты английского и т.д.) — смотрите Kling 3.0.

Можно ли получить пение?

Технически да, но результат нестабильный. Для музыкальных задач это не основной инструмент.

Примеры

19 мая, 00:49

19 мая, 00:12

Попробуйте Kling 2.6 (Native Audio) прямо сейчас

Параметры готовы, осталось задать промпт и нажать «Сгенерировать»

Открыть в редакторе