Whisper AI로 라이브 자막 만들기: STT부터 3줄 이중자막 완성까지
일본 아티스트의 라이브 영상에 자막을 넣는 크리에이터라면 공감하실 겁니다. MC(토크) 부분은 음성 인식(STT)으로, 노래 가사 부분은 가사 데이터로 따로 처리해야 하는데, 이 둘을 하나의 깔끔한 자막 파일로 합치는 과정이 상당히 번거롭습니다.
이 글에서는 실제로 YOASOBI의 라이브 영상(RADWIMPS 20주년 트리뷰트 공연에서 부른 「会心の一撃(회심의 일격)」)을 자막으로 만든 실전 사례를 통해, Whisper STT → Aegisub 싱크 보정 → LyricFlow 번역까지의 전체 워크플로우를 공유합니다.
▲ 이 영상에 자막을 입힌 실전 사례입니다
전체 워크플로우 한눈에 보기
Whisper large-v2로 음성 인식 (SRT 생성)
라이브 영상의 음성을 Whisper로 텍스트화합니다. MC 토크와 노래 가사가 뒤섞인 원본 SRT 파일이 생성됩니다.
Aegisub에서 싱크 보정 + 오타 수정 (ASS 변환)
SRT를 Aegisub에 불러와 ASS로 변환합니다. 타임코드를 음악에 맞게 미세 조정하고, Whisper의 오인식 텍스트를 정확한 일본어로 수정합니다.
가사 자막 제작 + 한국어 번역 + 발음 표기 합치기
노래 파트에는 정확한 가사 원문 + 한글 발음 + 한국어 번역을 3줄(\N)로 넣고, MC 파트에는 원문 + 번역 2줄을 넣어 최종 자막을 완성합니다.
Step 1: Whisper로 음성 인식하기
먼저 라이브 영상의 오디오를 Whisper large-v2 모델로 돌렸습니다. Whisper는 MC(토크) 파트에서는 꽤 정확한 결과를 보여주지만, 노래 가사 파트에서는 크게 맥을 못 추는 약점이 있습니다.
Whisper가 잘 잡은 부분 (MC 토크)
Whisper가 망친 부분 (노래 가사)
노래가 시작되면 Whisper의 인식 품질이 급격히 떨어집니다. 라이브라 관객 함성이 섞이고, 빠른 랩 파트에서 음절이 뭉개지기 때문입니다.
| Whisper가 인식한 텍스트 ❌ | 실제 가사 원문 ✅ |
|---|---|
| 前なんかいてもいなくても顔得意の | 「お前なんかいてもいなくても」がお得意の |
| 虫悪いこの世界は口癖で | 意地悪いこの世界の口癖で |
| 別の身に戻れ飽きもせずに | 僕の耳元で飽きもせずに |
| あと何万回人とお会いで | あと何万回の後悔で |
| 全ての人が覚えられるだろう | 僕は僕の期待を超えられるだろう |
| 就職試験の合格通知 面白い人間の合格通知 | 就職試験の合格通知 面白い人間の不合格通知 |
| ラッド・インプス | RADWIMPS |
| アイン・ノブル | I Novel (アイ・ノベル) |
| コピーワン | コピーバンド |
⚠️ 핵심 교훈: Whisper STT는 만능이 아닙니다. 특히 노래 파트, 고유명사(아티스트명·곡명), 관객 함성이 섞인 라이브 환경에서는 반드시 수동 검수가 필요합니다. 가사 부분은 아예 별도의 가사 데이터를 사용하는 것이 품질 면에서 훨씬 유리합니다.
Step 2: Aegisub에서 ASS로 다듬기
Whisper가 생성한 SRT를 Aegisub에 불러와 ASS 포맷으로 변환합니다. 이 단계에서 수행하는 주요 작업은 다음과 같습니다:
- 타임코드 미세 보정: 보코더 파형을 보면서 자막의 시작/끝 시간을 밀리초 단위로 맞춥니다.
- 오인식 텍스트 수정: 위 표에서 확인된 오타/오인식을 모두 원문으로 교정합니다.
- MC 세그먼트 세분화: Whisper가 뭉쳐놓은 긴 블록(90초짜리 등)을 문장 단위로 쪼갭니다.
- 스타일 분리: 용도에 따라 ASS 스타일을 나눕니다:
번역자막하단— 메인 가사 + MC 토크 (화면 하단)번역자막중간— 대위 가사/코러스 (화면 중앙)번역자막상단— ikura의 실시간 멘트 (화면 상단)
💡 Pro 팁: Aegisub의 해상도 설정(PlayResX/Y)을 3840×2160으로 맞추면 4K 영상에서도 자막 위치가 정확히 배치됩니다. 본 작업에서도 PlayResX: 3840, PlayResY: 2160으로 설정했습니다.
Step 3: 3줄 이중자막 완성하기
여기가 가장 핵심적인 단계입니다. 자막의 텍스트를 \\N(ASS 줄바꿈 코드)를 활용해 한 자막 라인 안에 3줄을 넣는 구조로 만듭니다.
🎵 노래 파트: 3줄 구조
🎤 MC(토크) 파트: 2줄 구조
📢 ikura 실시간 멘트: 2줄 + 상단 배치
✅ 최종 결과
MC 토크 70개 라인 + 가사 자막 46개 라인 + ikura 멘트 17개 라인 = 총 133개 Dialogue의 완성된 ASS 자막 파일. 3가지 스타일(하단/중간/상단)로 화면을 입체적으로 활용하며, 노래 파트에는 원문+발음+번역 3줄, MC 파트에는 원문+번역 2줄로 구성되어 일본어를 모르는 시청자도 라이브의 감동을 온전히 느낄 수 있습니다.
이 워크플로우에서 LyricFlow가 도와주는 부분
위 사례에서 수동으로 처리한 시간의 대부분은 '번역'과 '발음 표기'에 쏠려 있었습니다. LyricFlow를 활용하면 이 과정을 크게 단축할 수 있습니다:
- AI 번역 (일본어→한국어): MC 토크 70개 라인의 자연스러운 한국어 번역을 한 번에 생성합니다. 파일 업로드 → 옵션 설정 → 실행 3단계면 끝.
- 이중 자막 자동 생성 (Pro): 원문과 번역문을 \\N으로 자동 병기합니다. 수동으로 일일이 \\N을 추가할 필요가 없습니다.
- 일본어 발음 자동 표기 (Pro): 가사의 일본어 원문에 한글 발음(또는 로마자)을 AI가 자동으로 추출해 병기합니다.
- ASS 태그 100% 보존: Aegisub에서 세팅해 둔 스타일명, \\fad, \\pos 등의 태그가 번역 후에도 그대로 유지됩니다.
- 포맷 변환: SRT ↔ ASS ↔ LRC 간 변환이 필요할 때 웹에서 바로 처리할 수 있습니다.
💡 추천 워크플로우: Whisper로 SRT를 뽑고 → LyricFlow에서 AI 번역(이중자막 옵션 ON) → 다운로드한 ASS를 Aegisub에서 가사 파트만 교체/미세 조정. 이렇게 하면 수작업 시간을 70% 이상 줄일 수 있습니다.
이런 분들에게 추천합니다
- 🎤 J-pop / K-pop 라이브 영상에 자막을 입히는 팬 자막 크리에이터
- 🎬 유튜브 / 니코니코동화에 이중 자막을 입힌 번역 영상을 올리는 분
- 🎵 음악 가사 자막에 발음 가이드(후리가나/한글 읽기)를 넣고 싶은 분
- 📺 애니메이션 팬섭(fansub) 작업을 하면서 ASS 스타일을 보존해야 하는 분
- 🌍 다국어 자막을 빠르게 생성하고 싶은 영상 편집자
마무리
라이브 자막 제작은 '음성 인식 → 텍스트 교정 → 번역 → 스타일링'이라는 긴 파이프라인을 거칩니다. 이 중 Whisper가 STT를 담당하고, Aegisub가 편집을, 그리고 LyricFlow가 번역과 이중자막 생성을 담당하면 각 도구의 강점을 최대한 살리면서도 전체 작업 시간을 크게 줄일 수 있습니다.
특히 ASS 포맷의 복잡한 스타일 태그를 깨뜨리지 않고 번역해주는 도구는 현재로서는 LyricFlow가 유일하기에, 이 조합은 자막 크리에이터에게 가장 효율적인 워크플로우라 자부합니다.