VIDEO 3.0: 네이티브 오디오 업그레이드, 향상된 요소 일관성, 멀티샷 내러티브 지원
Kling 3.0 모델 시리즈는 Kling VIDEO O1과 Kling VIDEO 2.6을 기반으로, 깊게 통합된 단일 모델 학습 프레임워크를 활용해 더 자연스러운 멀티모달 입력과 출력을 구현합니다. 네이티브 오디오와 요소 일관성 제어 기능을 결합하면서 기존 길이 제한도 확장했습니다.
최대 15초까지 더 긴 영상 생성을 지원하면서, Kling 3.0 모델 시리즈는 네이티브 오디오-비주얼 출력을 제공하고 유연한 스토리보드 제어와 더 정밀한 의미 이해를 통해 AI 생성 영상에 생동감을 더합니다.영상의 전반적인 현실감이 크게 향상되었고, 캐릭터의 연기 표현도 더 풍부하고 역동적으로 바뀌었습니다. 차세대 통합 멀티모달 대형 모델을 기반으로 Kling VIDEO 2.6은 VIDEO 3.0으로, Kling VIDEO O1은 VIDEO 3.0 Omni로 업그레이드되어 제어력과 서사 표현력이 전반적으로 진화했습니다.
Kling VIDEO 3.0 기능 업그레이드
|
기능 | Kling VIDEO 2.6 | Kling VIDEO 3.0 |
텍스트→비디오 | ✅ | ✅ |
이미지→비디오 | ✅ | ✅ |
시작/끝 프레임→비디오 | ✅ | ✅ |
네이티브 오디오 | ✅ | ✅ |
멀티샷 | ❌ | ✅ |
시작 프레임 + 요소 참조 | ❌ | ✅ |
다중 캐릭터 지칭(3명 이상) | ❌ | ✅ |
다국어 지원(중국어, 영어, 일본어, 한국어, 스페인어) | ❌ | ✅ |
방언 및 억양 | ❌ | ✅ |
15초 출력 길이 | ❌ | ✅ |
유연한 길이 | ❌ | ✅ |
Kling VIDEO 3.0 모델 핵심 포인트
1. 멀티샷: AI 감독 탑재, 한 번에 영화 같은 출력
AI가 더 많은 쇼트와 장면 커버리지를 구성하도록 돕는 기능입니다. 새 멀티샷 기능은 프롬프트 안의 장면 구성과 쇼트 의도를 이해해 카메라 앵글과 구도를 자동으로 조정합니다. 기본적인 숏/리버스숏 대화부터 교차 편집 대화, 보이스오버 같은 고급 연출까지 영화 문법을 정밀하게 반영합니다. 복잡한 편집을 반복하지 않아도 한 번의 생성으로 영화적인 영상을 만들 수 있어, 더 많은 창작자가 복합적인 시청각 표현을 쉽게 활용할 수 있습니다.
|
2. 이미지→비디오 + 향상된 주체 일관성: 핵심 요소 고정
기반 모델의 깊은 멀티모달 이해를 활용해 일반적인 이미지→비디오 생성뿐 아니라 여러 장의 이미지 참조, 또는 비디오 참조를 요소로 사용하는 방식까지 지원합니다. 이를 통해 장면 안의 특정 요소를 더 단단히 고정할 수 있습니다. 주체 생성과 참조 기능을 사용하면 캐릭터, 사물, 장면의 특징을 모델이 유지하며, 카메라 움직임이나 장면 전개가 있어도 핵심 피사체가 안정적이고 일관되게 유지됩니다.
|
3. 캐릭터 참조와 다국어를 지원하는 네이티브 오디오 업그레이드
네이티브 오디오는 캐릭터와 발화를 더 정확하게 연결할 수 있도록 업그레이드되었습니다. 여러 캐릭터가 등장하는 장면에서도 누가 말하는지 명확히 지정할 수 있어, 발화 주체가 섞이거나 모호해지는 문제를 줄입니다.
또한 중국어, 영어, 일본어, 한국어, 스페인어 등 여러 언어와 실제 방언·억양 표현을 지원합니다. 한 장면 안에서 서로 다른 언어로 대화하는 다국어 코드 전환도 가능해졌습니다. 업무 상황의 이중언어 대화든, 여러 방언이 섞인 일상 장면이든 입 모양과 표정이 자연스럽고 일관되게 표현됩니다.
4. 네이티브 수준 텍스트 출력과 정밀 레터링 기능
원본 이미지의 간판·자막 같은 텍스트 세부 정보를 유지하거나, 완전히 새로운 텍스트를 생성할 때도 모델이 구조적인 레이아웃 안에서 선명한 글자를 표현합니다. 이는 영상 결과물의 현실감을 높일 뿐 아니라, 이커머스 광고처럼 고충실도 텍스트 표현이 필요한 용도에도 적합합니다.
5. 15초 생성: 한 번의 출력에 더 많은 창작 가능성
새 모델은 3초부터 15초까지 유연한 길이의 연속 영상을 생성할 수 있습니다. 단순히 출력 시간이 길어진 것이 아니라, 더 많은 서사 가능성이 열린 것입니다. 15초 안에서는 복잡한 액션 시퀀스나 장면 전개도 충분히 담을 수 있으며, 롱테이크의 섬세한 흐름이나 여러 플롯의 자연스러운 진행도 한 번의 생성 안에서 완성도 있게 표현할 수 있습니다. 조각난 클립을 이어 붙이는 방식에서 벗어나, 실제 흐름과 진전이 있는 이야기를 만들 수 있습니다.
Kling VIDEO 3.0 신규 기능 가이드
1. 멀티샷 내러티브
VIDEO 3.0은 매우 유연한 스토리보드 제어를 제공해 장면과 카메라 앵글을 동적으로 조정하고 영상의 서사 효과를 강화합니다. VIDEO 3.0의 멀티샷 영상 생성은 두 가지 모드로 사용할 수 있습니다: "Multi-Shot" and "Custom Multi-Shot". When "Multi-Shot" 을 켜면 모델이 쇼트 전환을 자동으로 계획하며, 이 스위치는 "Custom Multi-Shot". When "Multi-Shot" 을 끄면 모델은 기본적으로 단일 쇼트 영상을 생성합니다.
[멀티샷] 모드 켜기 | 쇼트 세부 내용을 설명하려면 “커스텀 멀티샷”을 클릭합니다. |
“멀티샷”을 켜면 모델이 쇼트 전환을 자동으로 계획하고, 별도의 수동 설명 없이 여러 장면으로 구성된 영상을 생성합니다. | 각 쇼트의 구체적인 내용을 지정하고 싶다면 “커스텀 멀티샷”을 클릭해 쇼트 수와 길이를 유연하게 설정할 수 있습니다. |
|
|
멀티샷
VIDEO 3.0 입력 영역에서 “멀티샷” 스위치를 켜면, VIDEO 3.0이 프롬프트를 바탕으로 장면 전환, 쇼트 프레이밍, 카메라 앵글 변화를 자동으로 계획합니다. 일반적으로 프롬프트를 따르지만, 설명된 장면이 단일 쇼트에 더 적합하다고 판단되면 상황에 맞게 유연하게 조정됩니다.
프롬프트 | 이미지 | 출력 |
| Outdoor terrace of a European villa, by a dining table with a blue and white checkered tablecloth, a young white woman in a blue and white striped short-sleeve shirt and khaki shorts, with a brown belt, sits barefoot, opposite a young white man in a white T-shirt. The camera zooms in, the woman swirls the juice in a glass, her eyes looking at the distant woods, and says "These trees will turn yellow in a month, won't they?". Close-up of the man, he lowers his head and says, "but they'll be green again next summer.". Then the woman turns her head, smiles at the man opposite, and says, "Are you always this optimistic? Or just about summer?". Then the man lifts his head, looks at the woman and says, “Only about summers with you.” |
| |
| A middle-aged man is ordering food in a Western restaurant. He speaks in English with an Indian accent and says: "excuse me, I would like to order a seafood pasta, and a filet mignon. medium-rare", then he looks up and continues: “And, do you have any drink recommendations?” |
|
커스텀 멀티샷
“멀티샷” 스위치를 켠 상태에서 “커스텀 멀티샷”을 클릭하면 각 쇼트의 내용과 길이를 정밀하게 제어할 수 있습니다. 모델은 프롬프트를 엄격히 따라 기대에 맞는 멀티샷 영상을 생성합니다.
프롬프트 | 이미지 | 출력 |
shot 1, profile shot of black man driving a truck, cinematic handheld. Shot 2, frontal macro shot of black man driving a truck, cinematic handheld. Shot 3, macro shot of hands on the steering wheel, cinematic handheld. Shot 4, macro shot of a weathered picture of a young black child laying on the passenger side seat, cinematic handheld. | / |
Kling AI 크리에이티브 파트너 @Dave Clark 제공 |
| Shot 1, Low-angle rear wide shot, tracking behind the rider as they move forward. Shot 2, Low-angle side close-up, a detailed shot of the motorcycle wheel. Shot 3, First-person POV from the rider, with the handlebars and instrument panel visible ahead. Shot 4, Frontal medium shot, tracking backward in front of the motorcycle, the rider’s helmet facing the camera. Shot 5, Side-on eye-level tracking shot with slight lateral movement. Shot 6, High-angle wide shot with a gentle downward tilt. The camera rises as the snowmobile rides deeper into the snowfield, leaving winding tracks carved into the pristine white snow, with snow-covered forests scattered on both sides. |
|
2. 이미지→비디오 및 요소 참조
기존 텍스트→비디오 기능을 기반으로 VIDEO 3.0은 요소 바인딩을 도입해 프레임 안의 특정 요소를 고정하고 주인공의 일관성을 유지할 수 있게 합니다. 줌, 팬, 틸트 같은 카메라 움직임이 있어도 피사체가 흔들리거나 사라지지 않고 선명하고 안정적으로 유지됩니다.
이미지를 업로드한 뒤 생성된 요소를 “주체 바인딩으로 일관성 강화” 항목을 통해 바인딩합니다. 요소 참조 기능을 사용하면 요소가 고정되고 시각적으로 안정적인 영상을 생성할 수 있습니다.
주체를 바인딩하면 시각적 일관성과 오디오 일관성을 함께 확보할 수 있습니다. 주체의 외형 특징이 시각적으로 매칭되고, 주체 생성 과정에서 음성 톤도 함께 바인딩할 수 있습니다. 이미 음성 톤이 바인딩된 주체를 선택했다면 프롬프트에서 다시 톤을 지정하는 것은 권장되지 않습니다.
프롬프트 | 시작 프레임 | 요소 참조 | 출력 |
| Authentic workplace texture, one continuous long take without any cuts. The camera follows the professional woman steadily in a medium shot throughout, moving in sync with her: the camera tracks her as she walks and freezes instantly when she pauses, with natural and smooth movements and fluid camera work. The woman walks forward out of the elevator, and the elevator doors close slowly and naturally behind her; she steps into the office area, takes off her sunglasses by hand, tucks them into her commuter bag casually, and nods politely to colleagues passing by; she pauses briefly, the camera freezes in sync, she hangs her commuter bag on the coat rack in the office area, then takes off her outer coat and hangs it on the same rack; after hanging up her clothes, she walks forward again, the camera tracks her in sync; a young man in a formal shirt walks towards her, hands her a document and a signature pen, she pauses, the camera freezes in sync, takes them and signs the document; after signing, she walks forward again, the camera tracks her in sync; finally, she walks to her desk, sits down by the chair, reaches out to pick up a cup of tea on the desk, and sips it with her head down, her movements relaxed and natural. |
|
| |
| The camera gradually moves around to the front of the girl, who then lifts her head and smiles warmly at the camera, as if seeing an old friend after many years. |
|
| 시작 프레임 + 향상된 요소 일관성 출력 시작 프레임만 사용한 출력 |
- 요소는 두 가지 방식으로 만들 수 있습니다. 1) 캐릭터 영상을 업로드하거나 녹화하면 시스템이 캐릭터의 외형과 원래 음성 톤을 자동으로 추출하며, 원본 톤을 유지하거나 커스텀 톤으로 교체할 수 있습니다. 2) 요소의 참조 이미지 2~4장을 업로드할 수 있고, 캐릭터 기반 요소는 오디오를 업로드하거나 음성 톤을 지정해 고유한 목소리를 설정할 수 있습니다. (자세히 보기 👉Kling 3.0 요소 라이브러리 사용자 가이드).
비디오 녹화로 캐릭터 요소 만들기(APP 전용) | ||
클릭해 캐릭터 영상을 녹화하고, 녹화 단계로 들어가 비디오 요소를 생성합니다. | 화면 안내에 따라 오디오를 녹음하고 여러 각도의 장면을 촬영합니다. | 요소의 음성 톤, 이름, 설명 등 세부 정보를 입력해 비디오 캐릭터 주체 생성을 완료합니다. |
|
|
|
비디오 업로드로 캐릭터 요소 만들기 | ||
비디오를 업로드해 요소 생성을 시작합니다. | 비디오를 적절한 길이로 다듬습니다. 가능하면 여러 각도의 캐릭터 장면이 포함된 영상이 좋습니다. | 요소의 음성 톤, 이름, 설명 등 세부 정보를 입력해 비디오 캐릭터 요소 생성을 완료합니다. |
|
|
|
| ||
| ||
3. 네이티브 오디오 출력
네이티브 오디오는 캐릭터와 발화를 더 정확하게 참조하도록 업그레이드되었으며, 여러 캐릭터가 등장하는 장면에서 참조 정확도를 크게 높입니다. 또한 이번 업그레이드는 다국어와 표현을 지원합니다. 실제 방언 및 억양이를 통해 언어의 경계를 넘어 더 자연스럽고 다양한 시청각 경험을 제공합니다.
다중 캐릭터 지칭
프롬프트에서 각 캐릭터의 대사를 명확히 지정하면 VIDEO 3.0이 각 캐릭터와 해당 대사를 자동으로 매칭합니다. 복잡한 장면에서 발화가 섞이는 문제를 줄이고, 같은 프레임 안의 여러 캐릭터에게 각각의 대사를 지정할 수 있습니다. 지시문을 입력할 때는 캐릭터와 해당 대사를 직접 연결해 작성하면 됩니다. Video 2.6과 비교해 Video 3.0은 세 명 이상의 캐릭터 참조를 관리하고 더 뛰어난 서사 결과를 만드는 데 강합니다.
프롬프트 | 이미지 | 출력 |
| Home setting with a faint hum of the living room air conditioner in the background for a realistic daily vibe. Mom (softly, in a surprised tone): Wow, I didn’t expect this plot at all. Dad (in a low voice, agreeing, in a calm tone): Yeah, it’s totally unexpected. Never thought that would happen. Boy (in an excited tone): It’s the best twist ever! Girl (nodding along, in an enthusiastic tone): I can’t believe they did that! |
|
다국어 콘텐츠 생성
Video 3.0은 중국어, 영어, 일본어, 한국어, 스페인어의 다섯 가지 언어 대화 출력을 지원합니다. 여러 언어가 섞인 연기도 가능하며, 하나의 영상 안에서 캐릭터가 서로 다른 언어로 전환해 말할 수 있습니다. 해당 텍스트를 입력하면 모델이 발음을 맞추고 언어 간 전환을 자연스럽게 처리합니다. 위 목록에 없는 언어로 대사를 입력하면 모델이 영어로 번역해 처리합니다.
프롬프트 | 이미지 | 출력 |
On a small station shrouded in morning mist, the boy smiled and handed over the bento: 「急いで作ったけど、大丈夫? お母さんのレシピだよ。」 The girl took it with a smile: 「うん、きっと美味しい! 到着したら LINE するね。」 |
| |
| On the rooftop of a Korean high school, distant city lights glimmer in the background with a soft wind rustling, and stars twinkle in the night sky. The girl leans against the railing, lost in thought. The boy walks over with two cans of cola, hands one to her, and she takes it and pops the tab open. Boy (casual tone, Korean): "숙제 다 했어? 왜 여기 있어?" Girl (sighing, Korean): "시험이 너무 무서워". Boy (gentle tone, Korean): “걱정 마, 넌 잘할 거야.” |
| |
| The camera lingers on their interaction— the noble lady’s gaze soft and mild, her maid listening with her head bowed. The lady lifts a hand to smooth her sleeve gently, and speaks in a warm, gentle tone: “오늘 후원에서 피어난 꽃을 보니, 시원한 바람이 분다. 너도 함께 걸어볼까?” The maid inclines her body slightly forward, and replies with deference: “네, 아씨님. 따라갈게요. |
| |
| Sunlight fills the old streets of Madrid. In front of a street-side bakery, a Chinese female tourist and a male tourist wearing a gray hoodie walk toward the shop clerk, both wearing polite smiles. Female tourist (speaking slightly slowly, with an awkward accent, in Spanish):Disculpe, ¿dónde está la plaza mayor? A white-haired Spanish shop clerk (turning slightly and pointing forward, with a light and cheerful tone, in Spanish):Por allí, a dos calles. Muy cerca. The female tourist nods to express her thanks. The male tourist also nods in agreement and says (in Spanish): Muchas gracias. 가게 직원은 미소를 지으며 고개를 끄덕입니다. 두 관광객은 안내받은 방향으로 몸을 돌려 걸어갑니다. |
|
방언 및 억양 생성
프롬프트에서 캐릭터의 방언이나 억양을 지정하면 Video 3.0이 캐릭터의 말투와 억양을 재현해 더 실제감 있는 연기를 만듭니다. Video 3.0은 중국어 방언(동북, 베이징, 대만, 광둥, 쓰촨 등)과 영어 억양(미국식, 영국식, 인도식 등)을 폭넓게 지원합니다. 대사 내용에 원하는 방언이나 억양을 태그하면 됩니다.
프롬프트 | 이미지 | 출력 |
In a high-rise office building, the man leaned back, wearing a tired, disdainful expression, and said in Cantonese: 「其实……我真系唔系好 buy 你呢个 logic 啰。成个 proposal 根本 align 唔到我哋个 core value。你个 flow 咁乱,点样去 convince 个 client 呀?不如你返去 re-think 下个 angle,听朝早我要见到个 final version。」 |
|
4. 네이티브 수준 텍스트 기능
Video 3.0은 원본 이미지의 텍스트 세부 정보를 정확히 보존하는 네이티브 수준 텍스트 출력을 도입했습니다. 이 기능은 이커머스 광고나 크리에이티브 숏폼처럼 다양한 제작 시나리오를 위해 설계되었습니다. 새 모델은 업로드된 이미지의 간판, 자막, 로고 같은 텍스트를 자동으로 인식하고 텍스트 일관성을 유지해, 글자가 밀리거나 흐려지는 문제를 줄입니다.
프롬프트 | 이미지 | 출력 |
| By the window of a Parisian apartment, with soft French piano BGM in the background, the gilded afternoon sunlight filters through the shutters onto the perfume bottle, casting dappled light and shadow. The camera pans slowly in from the scattered rose petals, shifting focus to the faceted cut of the Kling perfume bottle. Voiceover (lazy French female voice, British accent, slow pace): Bathe in the golden hour. The camera orbits the perfume bottle in slow motion, capturing the play of light and shadow on the golden lettering and bottle body. Voiceover: Kling, a whisper of Parisian elegance. The camera pulls back and freezes on the complete scene—the Kling perfume bottle standing on a velvet pedestal, with Parisian buildings faintly visible outside the window. Voiceover: Wrap yourself in luxury with every breath. |
| |
| The camera remains fixed on the word "KLING" emblazoned on the baseball bat as the player swings and hits the ball. |
|
5. 15초 롱샷 생성
Video 3.0은 유연한 길이 설정으로 최대 15초의 연속 영상을 생성합니다. 3초부터 15초까지복잡한 액션 시퀀스와 장면 전개를 충분히 담을 수 있어 전체 이야기 흐름이 자연스럽게 펼쳐집니다. 조각난 클립을 이어 붙이는 방식에서 벗어나, 실제 진행감과 흐름이 있는 이야기를 만들 수 있습니다.
프롬프트 | 이미지 | 출력 |
| Opening with an ultra-wide-angle medium-long shot tracking horizontally, the stabilizer moves low to the ground, with a highly contrasting romantic cinematic tone of cold blue night and silvery white starry sky, exuding a strong poetic realism and classical epic temperament. The protagonist is a young woman in a dark green long dress, running with all her might on the garden lawn illuminated by moonlight; her skirt billows in the wind forming surging dynamic curves, she clutches a small white flower in her right hand and lifts the hem of her dress with her left, breathing rapidly yet with a firm gaze. At the 4th second, the camera accelerates forward with her, and multiple men and women in old-era ball gowns break into the frame one after another from the left and right sides in the background, running alongside her—some try to approach, some turn back to shout, yet none truly touch her, implying pursuit and escape. At the 8th second, the camera gradually zooms in to a medium shot, pans to track forward in front of the protagonist and lifts slightly; she glances back briefly at a young male character behind her, their gazes meet for a split second, emotions erupt mid-run, and the woman and man join hands to run together. At the 12th second, the music and movement reach a climax; the camera moves forward close to her side face and fluttering hair, she releases the white flower and tosses it into the air, the flower drifting down in slow motion as the crowd behind brushes past it. In the final 3 seconds, the camera keeps moving forward, the woman and man break through the crowd and dash toward the starry sky at the end of the garden, their figures gradually taking over the center of the frame. The overall atmosphere is fiery, romantic and resolute, a burst of narrative about fate, choice and freedom. |
| |
| This is a 15-second cinematic long take, a single unbroken shot with no edited transitions. The scene is set inside a tower of plaster statues dappled with light and shadow, surrounded by towering white plaster sculptures, evoking an air of mystery and oppression. The shot opens with the protagonist skidding to a halt at the center of the scene after a frantic run, chest heaving, expression dazed and helpless, fear glinting in their eyes. The camera orbits the protagonist in a smooth 360-degree pan. As the camera rotates, the protagonist glances anxiously around and shouts: "Alex! Alex where are you! Are you here?" A cute dinosaur cry then echoes in the background, and the camera pushes in over the protagonist’s shoulder to their back— a small to medium-sized, adorable baby dinosaur steps out from behind a plaster pillar, letting out a sweet chirp. Startled by the sound, the protagonist whips around; catching sight of the dinosaur, they burst into tears instantly and rush forward without hesitation to clasp it tightly in their arms. The dinosaur nestles obediently against them. Sobbing, the protagonist strokes the dinosaur gently and trembles: "I found you! Thank God, I’m so scared!" The overall lighting and shadow boast a cinematic texture, with the emotion shifting from despair to an overwhelmingly touching reunion. | ![]() |
Kling VIDEO 3.0 모델 가격
VIDEO 3.0은 “네이티브 오디오”와 “네이티브 오디오 없음” 두 가지 모드를 제공하며, 각 모드는 1080p와 720p 해상도를 지원합니다. “네이티브 오디오” 모드에서는 음성 톤 제어 기능도 활성화할 수 있습니다. 영상 서비스 요금은 초 단위로 부과되며, 모드별로 요금이 다릅니다.
1080p | 720p | |
3.0 Video-Native Audio | 12 Credits/s | 9 Credits/s |
3.0 Video-No Native Audio | 8 Credits/s | 6 Credits/s |
3.0 Video-Voice Control | 2 Credits/s | 2 Credits/s |
- 예시 1: 5초 길이의 3.0 네이티브 오디오 1080p 영상을 생성하면 60 크레딧이 소모됩니다.
- 예시 2: 5초 길이의 3.0 네이티브 오디오 없음 720p 영상을 생성하면 30 크레딧이 소모됩니다.
- 예시 3: 5초 길이의 3.0 네이티브 오디오 + 음성 톤 제어 1080p 영상을 생성하면 70 크레딧이 소모됩니다.

























. 











