ElevenLabs Supertone 비교 — AI 음성 합성 3개월 사용 후 내린 선택

유튜브 쇼츠 나레이션용 AI 음성을 찾다가 ElevenLabs와 Supertone을 둘 다 결제하게 됐다. 처음엔 ElevenLabs만 쓸 생각이었는데, 한국어 품질에서 미묘한 불만이 쌓이면서 Supertone을 병행하기 시작했다. 3개월 정도 양쪽을 오가면서 쓰다 보니, ElevenLabs Supertone 비교가 꽤 선명해졌다.

결론부터 말하면 지금은 Supertone을 메인으로 쓰고 있다. 근데 ElevenLabs를 완전히 끊은 건 아니다. 각자 잘하는 영역이 다르고, 나처럼 한국어 콘텐츠 위주인 사람과 영어 위주인 사람은 선택이 달라질 수밖에 없다.

왜 AI 음성 합성을 쓰게 됐나

나는 유튜브 쇼츠와 블로그 콘텐츠를 만든다. Whisper로 자막을 추출하는 것처럼, 음성 쪽도 자동화하고 싶었다. 직접 녹음하면 품질이 들쑥날쑥한 데다, 조용한 환경을 확보하는 것 자체가 번거롭다. 특히 새벽에 작업하는 일이 잦아서 “지금 당장 깨끗한 나레이션이 필요한데” 하는 상황이 자주 발생했다.

처음에는 ElevenLabs를 선택했다. 영어권에서 워낙 유명하고, 데모 음성 품질이 압도적이었기 때문이다. Starter 플랜 $5/월로 시작했다가 한 달 만에 Creator $11/월로 올렸다. 한국어 나레이션을 본격적으로 돌리니까 10분 분량의 크레딧이 순식간에 바닥났다.

Supertone은 한국어 TTS 관련 검색을 하다가 알게 됐다. 한국 회사라서 한국어 최적화가 잘 되어 있다는 평이 많았고, Play 서비스를 써보니까 실제로 그랬다.

한국어 TTS 품질 — 체감 차이가 꽤 크다

ElevenLabs Supertone 비교 — Supertone Play 에디터 메인 화면

ElevenLabs Supertone 비교에서 가장 결정적인 차이는 한국어 품질이다.

ElevenLabs의 한국어는 “외국인이 한국어를 아주 잘하는” 느낌이다. 발음은 정확한데, 억양이 살짝 어색하다. 특히 의문문 끝 올림이나 “~거든” 같은 구어체 종결어미에서 부자연스러움이 느껴진다. 70개 이상 언어를 지원하다 보니 한국어에 집중적으로 최적화하긴 어려웠을 거다. Multilingual v2 모델이 전반적으로 잘 만들어졌지만, 한국어 특유의 존댓말-반말 뉘앙스, 감정 표현에서 미묘하게 밋밋하다.

Supertone의 한국어는 그냥 한국 사람이 읽는 것 같다. 이건 과장이 아니다. Supertone Play의 Sona 2 모델은 23개 언어를 지원하지만, 한국어가 기본이다. 한국 회사답게 한국어 데이터에 쏟은 리소스가 다른 느낌이다. 피치, 속도, 억양 조절도 세밀하고, 감정 표현이 자연스러워서 짧은 나레이션에서 특히 차이가 크다.

직접 같은 문장을 넣어서 비교해봤다:

테스트 문장: "솔직히 이건 좀 아쉬웠는데, 다음 버전에서는 개선될 거라고 기대하고 있다."

ElevenLabs (Multilingual v2, "Rachel" 보이스):
- 발음: 정확하지만 "솔직히"의 억양이 약간 평탄
- "아쉬웠는데"에서 감정 변화가 약함
- 전체적으로 뉴스 앵커가 읽는 느낌

Supertone Play (Sona 2, "지훈" 보이스):
- "솔직히"에서 자연스러운 강조
- "아쉬웠는데"에서 실제로 아쉬운 톤이 묻어남
- 유튜버가 편하게 말하는 느낌

영상 나레이션에서 이 차이는 생각보다 크다. 시청자가 “이거 AI 음성이네” 하고 알아차리는 순간 이탈률이 올라가는데, Supertone 쪽이 확실히 덜 티가 난다.

영어 TTS — 여기선 ElevenLabs가 한 수 위

반대로 영어는 ElevenLabs가 확실히 낫다. 비교할 필요도 없을 정도다.

ElevenLabs의 영어 음성은 진짜 사람과 구분이 안 되는 수준이다. Turbo v2.5 모델은 감정 표현이 풍부하고, 위스퍼링이나 강조 같은 미세한 표현까지 된다. API 연동도 깔끔해서 자동화 파이프라인에 녹이기 좋다.

Supertone의 영어도 나쁘지 않다. Sona 2 모델 이후로 영어 품질이 많이 올라갔다. 하지만 ElevenLabs의 영어와 나란히 놓으면 차이가 느껴진다. 특히 긴 문장에서 프로소디(prosody) — 문장 전체의 리듬감과 강세 패턴 — 가 ElevenLabs 쪽이 더 자연스럽다.

보이스 클로닝 — 접근 방식이 아예 다르다

ElevenLabs Supertone 비교 — Supertone 보이스 선택 화면

둘 다 보이스 클로닝을 지원하지만, 철학이 다르다.

ElevenLabs는 두 가지 방식을 제공한다:

  • Instant Clone: 1~5분 샘플로 빠르게 복제. Starter($5/월) 이상에서 사용 가능
  • Professional Clone: 30분 이상 샘플로 고품질 복제. Creator($11/월) 이상

Instant Clone으로도 쓸 만한 수준이 나온다. 내 목소리를 3분짜리 녹음으로 클로닝했는데, “어? 이거 내 목소리 맞네” 수준은 된다. 억양까지 완벽하진 않지만.

Supertone Play는 10초 분량의 음성만으로 클로닝이 가능하다고 한다. 실제로 해봤는데, 10초만으로도 기본 톤은 잡아낸다. 다만 감정 표현까지 원본처럼 나오려면 더 긴 샘플이 필요하다. Supertone의 장점은 클로닝 후에도 피치, 속도, 감정 조절이 세밀하게 된다는 점이다.

한 가지 주의할 점 — 보이스 클로닝은 양쪽 다 본인 목소리 또는 명시적 동의를 받은 목소리만 사용해야 한다. ElevenLabs는 이 부분 가이드라인이 꽤 엄격하고, Supertone도 마찬가지다.

가격 — 같은 돈으로 뭘 더 많이 쓸 수 있나

2026년 4월 기준 개인 사용자 기준 가격이다.

항목 ElevenLabs Supertone Play
무료 10,000 크레딧 (~10분) 제한적 무료 체험
입문 Starter $5/월 (30분) $2.99/월
중급 Creator $11/월 (100분) $24/월 (무제한)
보이스 클로닝 Starter부터 (Instant) 유료 플랜 포함
상업적 사용 Starter부터 가능 유료 플랜부터 가능
API 별도 과금 (분당 $0.05~) 클로즈드 베타 ($0.10/분)

얼핏 보면 ElevenLabs가 싸 보이지만 함정이 있다. 크레딧 제한이다. Starter $5/월은 30분밖에 안 된다. 유튜브 쇼츠를 매일 올리면 한 달에 30분은 금방 소진된다. 나는 결국 Creator $11/월로 올렸고, 그래도 빡빡했다.

Supertone Play $24/월은 비싸 보이지만 무제한이다. 얼마를 생성하든 추가 과금이 없다. 나처럼 매일 콘텐츠를 찍는 사람한테는 이게 결정적이었다. 월 100분 이상 쓸 거면 Supertone이 무조건 이득이다.

실제 워크플로우에서의 차이

ElevenLabs Supertone 비교 — Supertone 음성 생성 결과 파형

내 콘텐츠 제작 파이프라인은 이렇다:

1. 대본 작성 (한국어)
2. AI 음성 생성 (TTS)
3. 영상 편집 + 자막 합성
4. 썸네일 제작
5. 업로드

이 중 2번에서 어떤 도구를 쓰느냐의 차이다.

ElevenLabs 워크플로우는 웹 UI에서 텍스트를 넣고 생성하거나, ElevenLabs API를 직접 호출한다. API가 깔끔해서 Telegram 봇이나 자동화 스크립트에 연동하기 좋다. 다만 한국어 결과물을 듣고 “음… 이 부분 억양이 좀…” 하면서 여러 번 재생성하는 시간이 은근히 들었다.

Supertone 워크플로우는 웹 에디터에서 문장 단위로 피치와 속도를 조절할 수 있다. 한국어 결과물이 첫 생성에서 만족스러운 경우가 많아서 재생성 횟수가 적다. API는 아직 클로즈드 베타라서 자동화 연동이 아쉽다.

각각 짜증났던 점

ElevenLabs

  • 한국어에서 가끔 영어 발음이 섞인다. “API”나 “JSON” 같은 기술 용어를 한국어 문장에 넣으면, 갑자기 영어 억양으로 전환됐다가 다시 한국어로 돌아오는데 이게 귀에 상당히 거슬린다.
  • 크레딧이 빨리 바닥난다. “한 번 더 생성해볼까” 하다 보면 순식간에 크레딧이 줄어든다. 마음 편하게 실험할 수가 없다.
  • 무료 플랜에 ElevenLabs 워터마크가 붙는다. 상업적 사용 불가인 것도 그렇고, 워터마크 때문에 테스트 용도로만 써야 한다.

Supertone

  • API가 아직 클로즈드 베타다. 자동화 파이프라인에 녹이고 싶은데 정식 API가 없어서 수동으로 웹 UI를 쓰고 있다. 이게 가장 아쉬운 점이다.
  • 영어 품질이 ElevenLabs에 미치지 못한다. 영어 콘텐츠를 함께 만드는 사람이면 아쉬울 수 있다.
  • 프리미엄 보이스 선택지가 ElevenLabs보다 적다. ElevenLabs는 수천 개의 커뮤니티 보이스가 있지만, Supertone은 150개 정도의 프리미엄 보이스를 제공한다.

누가 뭘 쓰면 되는가

3개월간 병행 사용한 ElevenLabs Supertone 비교를 정리하면:

Supertone을 추천하는 경우:

  • 한국어 콘텐츠가 주력이다
  • 매일 또는 자주 TTS를 사용한다 (무제한 플랜의 가성비)
  • 자연스러운 감정 표현이 중요하다
  • 실시간 보이스 체인저(Shift)도 관심 있다

ElevenLabs를 추천하는 경우:

  • 영어 콘텐츠가 주력이거나, 다국어 콘텐츠를 만든다
  • API 연동이 필수다 (자동화 파이프라인)
  • 다양한 커뮤니티 보이스를 활용하고 싶다
  • 사용량이 적어서 $5~11/월로 충분하다

나는 한국어 유튜브 쇼츠가 주력이고, 매일 콘텐츠를 만들기 때문에 Supertone $24/월이 훨씬 합리적이었다. ElevenLabs는 영어 나레이션이 필요할 때만 Starter $5/월로 유지하고 있다. 도구를 하나로 통일할 필요는 없다. 용도에 맞게 쓰면 된다.