실전 워크플로우

Whisper AI로 라이브 자막 만들기: STT부터 3줄 이중자막 완성까지

2026년 2월 26일 10분 소요

일본 아티스트의 라이브 영상에 자막을 넣는 크리에이터라면 공감하실 겁니다. MC(토크) 부분은 음성 인식(STT)으로, 노래 가사 부분은 가사 데이터로 따로 처리해야 하는데, 이 둘을 하나의 깔끔한 자막 파일로 합치는 과정이 상당히 번거롭습니다.

이 글에서는 실제로 YOASOBI의 라이브 영상(RADWIMPS 20주년 트리뷰트 공연에서 부른 「会心の一撃(회심의 일격)」)을 자막으로 만든 실전 사례를 통해, Whisper STT → Aegisub 싱크 보정 → LyricFlow 번역까지의 전체 워크플로우를 공유합니다.

▲ 이 영상에 자막을 입힌 실전 사례입니다

전체 워크플로우 한눈에 보기

Whisper large-v2로 음성 인식 (SRT 생성)

라이브 영상의 음성을 Whisper로 텍스트화합니다. MC 토크와 노래 가사가 뒤섞인 원본 SRT 파일이 생성됩니다.

Aegisub에서 싱크 보정 + 오타 수정 (ASS 변환)

SRT를 Aegisub에 불러와 ASS로 변환합니다. 타임코드를 음악에 맞게 미세 조정하고, Whisper의 오인식 텍스트를 정확한 일본어로 수정합니다.

가사 자막 제작 + 한국어 번역 + 발음 표기 합치기

노래 파트에는 정확한 가사 원문 + 한글 발음 + 한국어 번역을 3줄(\N)로 넣고, MC 파트에는 원문 + 번역 2줄을 넣어 최종 자막을 완성합니다.

Step 1: Whisper로 음성 인식하기

먼저 라이브 영상의 오디오를 Whisper large-v2 모델로 돌렸습니다. Whisper는 MC(토크) 파트에서는 꽤 정확한 결과를 보여주지만, 노래 가사 파트에서는 크게 맥을 못 추는 약점이 있습니다.

Whisper가 잘 잡은 부분 (MC 토크)

// SRT 원본 — MC(토크) 부분: 비교적 정확
1
00:00:00,780 --> 00:00:02,768
最高です、よこはまありがとうございます!

Whisper가 망친 부분 (노래 가사)

노래가 시작되면 Whisper의 인식 품질이 급격히 떨어집니다. 라이브라 관객 함성이 섞이고, 빠른 랩 파트에서 음절이 뭉개지기 때문입니다.

Whisper가 인식한 텍스트 ❌	실제 가사 원문 ✅
前なんかいてもいなくても顔得意の	「お前なんかいてもいなくても」がお得意の
虫悪いこの世界は口癖で	意地悪いこの世界の口癖で
別の身に戻れ飽きもせずに	僕の耳元で飽きもせずに
あと何万回人とお会いで	あと何万回の後悔で
全ての人が覚えられるだろう	僕は僕の期待を超えられるだろう
就職試験の合格通知面白い人間の合格通知	就職試験の合格通知面白い人間の不合格通知
ラッド・インプス	RADWIMPS
アイン・ノブル	I Novel (アイ・ノベル)
コピーワン	コピーバンド

⚠️ 핵심 교훈: Whisper STT는 만능이 아닙니다. 특히 노래 파트, 고유명사(아티스트명·곡명), 관객 함성이 섞인 라이브 환경에서는 반드시 수동 검수가 필요합니다. 가사 부분은 아예 별도의 가사 데이터를 사용하는 것이 품질 면에서 훨씬 유리합니다.

Step 2: Aegisub에서 ASS로 다듬기

Whisper가 생성한 SRT를 Aegisub에 불러와 ASS 포맷으로 변환합니다. 이 단계에서 수행하는 주요 작업은 다음과 같습니다:

타임코드 미세 보정: 보코더 파형을 보면서 자막의 시작/끝 시간을 밀리초 단위로 맞춥니다.
오인식 텍스트 수정: 위 표에서 확인된 오타/오인식을 모두 원문으로 교정합니다.
MC 세그먼트 세분화: Whisper가 뭉쳐놓은 긴 블록(90초짜리 등)을 문장 단위로 쪼갭니다.
스타일 분리: 용도에 따라 ASS 스타일을 나눕니다:
- 번역자막하단 — 메인 가사 + MC 토크 (화면 하단)
- 번역자막중간 — 대위 가사/코러스 (화면 중앙)
- 번역자막상단 — ikura의 실시간 멘트 (화면 상단)

💡 Pro 팁: Aegisub의 해상도 설정(PlayResX/Y)을 3840×2160으로 맞추면 4K 영상에서도 자막 위치가 정확히 배치됩니다. 본 작업에서도 PlayResX: 3840, PlayResY: 2160으로 설정했습니다.

Step 3: 3줄 이중자막 완성하기

여기가 가장 핵심적인 단계입니다. 자막의 텍스트를 \\N(ASS 줄바꿈 코드)를 활용해 한 자막 라인 안에 3줄을 넣는 구조로 만듭니다.

🎵 노래 파트: 3줄 구조

// 1줄: 일본어 원문 가사
// 2줄: 한글 발음 (로마자 대신 한글로 표기)
// 3줄: 한국어 의미 번역

Dialogue: 0,0:06:31.83,0:06:36.93,번역자막하단,,0,0,0,,
「お前なんかいてもいなくても」がお得意の\N
「오마에난카 이테모 이나쿠테모」가 오토쿠이노\N
「너 따위 있든 없든 상관없어」라며 비꼬는 게 특기인

🎤 MC(토크) 파트: 2줄 구조

// 1줄: 일본어 원문
// 2줄: 한국어 번역

Dialogue: 0,0:00:00.78,0:00:02.77,번역자막하단,,0,0,0,,
最高です、よこはまありがとうございます!\N
최고예요, 요코하마 감사합니다!

📢 ikura 실시간 멘트: 2줄 + 상단 배치

// 노래 중 ikura가 관객에게 외치는 멘트
// 가사 자막(하단)과 겹치지 않도록 스타일을 '상단'으로 분리

Dialogue: 0,0:07:48.48,0:07:49.39,번역자막상단,,0,0,0,,
一緒に\N다 같이

✅ 최종 결과

MC 토크 70개 라인 + 가사 자막 46개 라인 + ikura 멘트 17개 라인 = 총 133개 Dialogue의 완성된 ASS 자막 파일. 3가지 스타일(하단/중간/상단)로 화면을 입체적으로 활용하며, 노래 파트에는 원문+발음+번역 3줄, MC 파트에는 원문+번역 2줄로 구성되어 일본어를 모르는 시청자도 라이브의 감동을 온전히 느낄 수 있습니다.

이 워크플로우에서 LyricFlow가 도와주는 부분

위 사례에서 수동으로 처리한 시간의 대부분은 '번역'과 '발음 표기'에 쏠려 있었습니다. LyricFlow를 활용하면 이 과정을 크게 단축할 수 있습니다:

AI 번역 (일본어→한국어): MC 토크 70개 라인의 자연스러운 한국어 번역을 한 번에 생성합니다. 파일 업로드 → 옵션 설정 → 실행 3단계면 끝.
이중 자막 자동 생성 (Pro): 원문과 번역문을 \\N으로 자동 병기합니다. 수동으로 일일이 \\N을 추가할 필요가 없습니다.
일본어 발음 자동 표기 (Pro): 가사의 일본어 원문에 한글 발음(또는 로마자)을 AI가 자동으로 추출해 병기합니다.
ASS 태그 100% 보존: Aegisub에서 세팅해 둔 스타일명, \\fad, \\pos 등의 태그가 번역 후에도 그대로 유지됩니다.
포맷 변환: SRT ↔ ASS ↔ LRC 간 변환이 필요할 때 웹에서 바로 처리할 수 있습니다.

💡 추천 워크플로우: Whisper로 SRT를 뽑고 → LyricFlow에서 AI 번역(이중자막 옵션 ON) → 다운로드한 ASS를 Aegisub에서 가사 파트만 교체/미세 조정. 이렇게 하면 수작업 시간을 70% 이상 줄일 수 있습니다.

이런 분들에게 추천합니다

🎤 J-pop / K-pop 라이브 영상에 자막을 입히는 팬 자막 크리에이터
🎬 유튜브 / 니코니코동화에 이중 자막을 입힌 번역 영상을 올리는 분
🎵 음악 가사 자막에 발음 가이드(후리가나/한글 읽기)를 넣고 싶은 분
📺 애니메이션 팬섭(fansub) 작업을 하면서 ASS 스타일을 보존해야 하는 분
🌍 다국어 자막을 빠르게 생성하고 싶은 영상 편집자

마무리

라이브 자막 제작은 '음성 인식 → 텍스트 교정 → 번역 → 스타일링'이라는 긴 파이프라인을 거칩니다. 이 중 Whisper가 STT를 담당하고, Aegisub가 편집을, 그리고 LyricFlow가 번역과 이중자막 생성을 담당하면 각 도구의 강점을 최대한 살리면서도 전체 작업 시간을 크게 줄일 수 있습니다.

특히 ASS 포맷의 복잡한 스타일 태그를 깨뜨리지 않고 번역해주는 도구는 현재로서는 LyricFlow가 유일하기에, 이 조합은 자막 크리에이터에게 가장 효율적인 워크플로우라 자부합니다.

지금 바로 AI 자막 번역을 시작하세요

매일 3회 무료 번역 크레딧 제공. 카드 등록 없이 바로 시작할 수 있습니다.

무료로 시작하기