블로그 기능 요금제
실전 워크플로우

Whisper AI로 라이브 자막 만들기: STT부터 3줄 이중자막 완성까지

2026년 2월 26일 10분 소요

일본 아티스트의 라이브 영상에 자막을 넣는 크리에이터라면 공감하실 겁니다. MC(토크) 부분은 음성 인식(STT)으로, 노래 가사 부분은 가사 데이터로 따로 처리해야 하는데, 이 둘을 하나의 깔끔한 자막 파일로 합치는 과정이 상당히 번거롭습니다.

이 글에서는 실제로 YOASOBI의 라이브 영상(RADWIMPS 20주년 트리뷰트 공연에서 부른 「会心の一撃(회심의 일격)」)을 자막으로 만든 실전 사례를 통해, Whisper STT → Aegisub 싱크 보정 → LyricFlow 번역까지의 전체 워크플로우를 공유합니다.

▲ 이 영상에 자막을 입힌 실전 사례입니다

전체 워크플로우 한눈에 보기

1

Whisper large-v2로 음성 인식 (SRT 생성)

라이브 영상의 음성을 Whisper로 텍스트화합니다. MC 토크와 노래 가사가 뒤섞인 원본 SRT 파일이 생성됩니다.

2

Aegisub에서 싱크 보정 + 오타 수정 (ASS 변환)

SRT를 Aegisub에 불러와 ASS로 변환합니다. 타임코드를 음악에 맞게 미세 조정하고, Whisper의 오인식 텍스트를 정확한 일본어로 수정합니다.

3

가사 자막 제작 + 한국어 번역 + 발음 표기 합치기

노래 파트에는 정확한 가사 원문 + 한글 발음 + 한국어 번역을 3줄(\N)로 넣고, MC 파트에는 원문 + 번역 2줄을 넣어 최종 자막을 완성합니다.

Step 1: Whisper로 음성 인식하기

먼저 라이브 영상의 오디오를 Whisper large-v2 모델로 돌렸습니다. Whisper는 MC(토크) 파트에서는 꽤 정확한 결과를 보여주지만, 노래 가사 파트에서는 크게 맥을 못 추는 약점이 있습니다.

Whisper가 잘 잡은 부분 (MC 토크)

// SRT 원본 — MC(토크) 부분: 비교적 정확 1 00:00:00,780 --> 00:00:02,768 最高です、よこはまありがとうございます!

Whisper가 망친 부분 (노래 가사)

노래가 시작되면 Whisper의 인식 품질이 급격히 떨어집니다. 라이브라 관객 함성이 섞이고, 빠른 랩 파트에서 음절이 뭉개지기 때문입니다.

Whisper가 인식한 텍스트 ❌ 실제 가사 원문 ✅
前なんかいてもいなくても顔得意の 「お前なんかいてもいなくても」がお得意の
虫悪いこの世界は口癖で 意地悪いこの世界の口癖で
別の身に戻れ飽きもせずに 僕の耳元で飽きもせずに
あと何万回人とお会いで あと何万回の後悔で
全ての人が覚えられるだろう 僕は僕の期待を超えられるだろう
就職試験の合格通知 面白い人間の合格通知 就職試験の合格通知 面白い人間の合格通知
ラッド・インプス RADWIMPS
アイン・ノブル I Novel (アイ・ノベル)
コピーワン コピーバンド

⚠️ 핵심 교훈: Whisper STT는 만능이 아닙니다. 특히 노래 파트, 고유명사(아티스트명·곡명), 관객 함성이 섞인 라이브 환경에서는 반드시 수동 검수가 필요합니다. 가사 부분은 아예 별도의 가사 데이터를 사용하는 것이 품질 면에서 훨씬 유리합니다.

Step 2: Aegisub에서 ASS로 다듬기

Whisper가 생성한 SRT를 Aegisub에 불러와 ASS 포맷으로 변환합니다. 이 단계에서 수행하는 주요 작업은 다음과 같습니다:

💡 Pro 팁: Aegisub의 해상도 설정(PlayResX/Y)을 3840×2160으로 맞추면 4K 영상에서도 자막 위치가 정확히 배치됩니다. 본 작업에서도 PlayResX: 3840, PlayResY: 2160으로 설정했습니다.

Step 3: 3줄 이중자막 완성하기

여기가 가장 핵심적인 단계입니다. 자막의 텍스트를 \\N(ASS 줄바꿈 코드)를 활용해 한 자막 라인 안에 3줄을 넣는 구조로 만듭니다.

🎵 노래 파트: 3줄 구조

// 1줄: 일본어 원문 가사 // 2줄: 한글 발음 (로마자 대신 한글로 표기) // 3줄: 한국어 의미 번역 Dialogue: 0,0:06:31.83,0:06:36.93,번역자막하단,,0,0,0,, 「お前なんかいてもいなくても」がお得意の\N 「오마에난카 이테모 이나쿠테모」가 오토쿠이노\N 「너 따위 있든 없든 상관없어」라며 비꼬는 게 특기인

🎤 MC(토크) 파트: 2줄 구조

// 1줄: 일본어 원문 // 2줄: 한국어 번역 Dialogue: 0,0:00:00.78,0:00:02.77,번역자막하단,,0,0,0,, 最高です、よこはまありがとうございます!\N 최고예요, 요코하마 감사합니다!

📢 ikura 실시간 멘트: 2줄 + 상단 배치

// 노래 중 ikura가 관객에게 외치는 멘트 // 가사 자막(하단)과 겹치지 않도록 스타일을 '상단'으로 분리 Dialogue: 0,0:07:48.48,0:07:49.39,번역자막상단,,0,0,0,, 一緒に\N다 같이

✅ 최종 결과

MC 토크 70개 라인 + 가사 자막 46개 라인 + ikura 멘트 17개 라인 = 총 133개 Dialogue의 완성된 ASS 자막 파일. 3가지 스타일(하단/중간/상단)로 화면을 입체적으로 활용하며, 노래 파트에는 원문+발음+번역 3줄, MC 파트에는 원문+번역 2줄로 구성되어 일본어를 모르는 시청자도 라이브의 감동을 온전히 느낄 수 있습니다.

이 워크플로우에서 LyricFlow가 도와주는 부분

위 사례에서 수동으로 처리한 시간의 대부분은 '번역'과 '발음 표기'에 쏠려 있었습니다. LyricFlow를 활용하면 이 과정을 크게 단축할 수 있습니다:

💡 추천 워크플로우: Whisper로 SRT를 뽑고 → LyricFlow에서 AI 번역(이중자막 옵션 ON) → 다운로드한 ASS를 Aegisub에서 가사 파트만 교체/미세 조정. 이렇게 하면 수작업 시간을 70% 이상 줄일 수 있습니다.

이런 분들에게 추천합니다

마무리

라이브 자막 제작은 '음성 인식 → 텍스트 교정 → 번역 → 스타일링'이라는 긴 파이프라인을 거칩니다. 이 중 Whisper가 STT를 담당하고, Aegisub가 편집을, 그리고 LyricFlow가 번역과 이중자막 생성을 담당하면 각 도구의 강점을 최대한 살리면서도 전체 작업 시간을 크게 줄일 수 있습니다.

특히 ASS 포맷의 복잡한 스타일 태그를 깨뜨리지 않고 번역해주는 도구는 현재로서는 LyricFlow가 유일하기에, 이 조합은 자막 크리에이터에게 가장 효율적인 워크플로우라 자부합니다.

지금 바로 AI 자막 번역을 시작하세요

매일 3회 무료 번역 크레딧 제공. 카드 등록 없이 바로 시작할 수 있습니다.

무료로 시작하기