Demo · test idea — Babelio is an exploratory concept, not a real product.Демо · тест-идея — Babelio это концепт-исследование, не реальный продукт.
Seed Pitch · May 2026

Babelio translates any app. Babelio переводит любое приложение.

A system-wide desktop translator that hijacks any app's audio, mutes the speaker, and dubs them in your language in under 700ms. Системный десктоп-переводчик: перехватывает звук любого приложения, выключает оригинал и озвучивает на твоём языке за 700 мс.

StageСтадияWorking prototypeРабочий прототип RaisingРаунд$300K seed RunwayГоризонт14 months14 месяцев HQHQMac / Win desktop
01 · Problem01 · Проблема

Translation lives in app silos. Перевод живёт в силосах приложений.

Zoom has its own captions, Teams has Copilot, YouTube has its own subtitles, browser extensions only cover tabs. Nobody dubs voice in real time across every app on the desktop. У Zoom свои субтитры, у Teams — Copilot, у YouTube — свои дорожки, у браузерных расширений — только вкладки. Никто не озвучивает речь в реальном времени поверх всех приложений сразу.

All three want the same thing: shut up the original speaker and feed me the translation — in whatever app they're already in. Все трое хотят одного: заткнуть оригинального спикера и услышать перевод — прямо в том приложении, где они сейчас.

02 · Solution02 · Решение

One OS layer. Every app speaks your language. Один системный слой. Каждое приложение говорит на твоём языке.

Babelio is a Mac/Windows app that captures any process's audio, ducks the original to 15%, and replays a translated voice dub on top — in <700ms. One install. No browser extension. No meeting-host permission. Works with Zoom, Meet, Teams, YouTube, Twitch, VLC, Discord, Spotify, anything that plays sound. Babelio — приложение для Mac/Windows. Захватывает звук любого процесса, приглушает оригинал до 15% и поверх воспроизводит озвученный перевод за <700 мс. Одна установка. Никаких расширений. Не нужно разрешение организатора звонка. Работает с Zoom, Meet, Teams, YouTube, Twitch, VLC, Discord, Spotify — со всем, что издаёт звук.

End-to-end latencyЗадержка end-to-end
~650ms p50
Languages at launchЯзыков на старте
30+
Install footprintРазмер установки
10MB Tauri

The conversion momentМомент конверсии

A French colleague speaks in Zoom. ~600ms later the user hears a fluent Russian voice over a quiet French murmur. No tab juggling. No copy-paste. No second screen. Two modes ship at MVP: simultaneous voice dub and live subtitle overlay. Французский коллега говорит в Zoom. Через ~600 мс пользователь слышит русский голос поверх тихого французского. Без вкладок, копипасты и второго экрана. В MVP два режима: одновременный голосовой дубляж и живые субтитры поверх.

03 · Why Now03 · Почему сейчас

Three latency curves crossed in 2025. Три кривые задержки пересеклись в 2025.

Below 700ms total, simultaneous dubbing stops feeling like a delayed echo and starts feeling like interpretation. That threshold is new. Ниже 700 мс синхронный дубляж перестаёт ощущаться как эхо и становится переводом. Эта планка — недавняя.

STT streamingпотоковый
<300ms · Nova-3
MT first tokenпервый токен
<200ms · Gemini 2.5
TTS TTFBTTFB
<200ms · ElevenLabs Flash
04 · Market04 · Рынок

$1.15B AI dubbing today. $2.56B by 2030. $1,15 млрд AI-дубляж сегодня. $2,56 млрд к 2030.

Babelio sits at the intersection of three growing categories: real-time speech translation, AI dubbing, and system-wide audio overlays. Babelio — на пересечении трёх растущих категорий: realtime-перевод речи, AI-дубляж и системные аудио-оверлеи.

TAM AI translation umbrellaAI-перевод (зонт)
$2.94B2025 · 25% CAGR
SAM AI dubbing toolsAI-дубляж
$1.15B2025 · 17.7% CAGR
SOM Babelio Y3 targetBabelio цель Y3
$15–25MARR realistic

SOM build (bottom-up)SOM снизу вверх

Remote workers (US): 32.6M × 15% multilingual × 5% reachable × $8/mo ARPU × 12 = ~$23M ARR. Streamers: ~10M active Twitch creators × 1% × $15/mo = $18M ARR. Students: ~50M paying language learners × 0.3% × $5/mo = $9M ARR. Sum of reachable wedges ~$50M ARR ceiling; conservative Y2 target $5M ARR. Удалёнщики (США): 32,6 млн × 15% мультиязычных × 5% доступных × $8/мес × 12 = ~$23M ARR. Стримеры: ~10 млн активных авторов Twitch × 1% × $15/мес = $18M ARR. Студенты: ~50 млн платящих за изучение языков × 0,3% × $5/мес = $9M ARR. Сумма досягаемых клиньев ~$50M ARR потолок; консервативная цель Y2 — $5M ARR.

Sources: Research and Markets · Expert Market Research · Remotly · Streams Charts.
05 · Product05 · Продукт

Install → grant audio → press Start. Установил → разрешил звук → нажал Start.

A 10MB Tauri binary. One OS permission. A draggable HUD pill in the top-right of the screen. Cmd+Shift+B to translate any audible app. 10 МБ Tauri-бинарник. Одно системное разрешение. Перетаскиваемая HUD-капсула в углу экрана. Cmd+Shift+B — перевод любого приложения, играющего звук.

  1. Install & grant.Установка и разрешение. One OS dialog (CoreAudio tap on Mac, WASAPI loopback on Windows). 30 seconds total. Один системный диалог (CoreAudio tap на Mac, WASAPI loopback на Windows). 30 секунд.
  2. Pick target language.Выбор целевого языка. "I want everything in → Russian." Source = auto-detect. «Хочу всё на → русском». Источник определяется автоматически.
  3. App picker.Выбор приложения. HUD auto-detects audible apps. Pin Zoom/Meet/Teams to "Always translate". HUD сам видит играющие приложения. Закрепить Zoom/Meet/Teams — «всегда переводить».
  4. Real use.Реальное использование. French colleague speaks. ~600ms later you hear fluent Russian over a ducked French murmur. P50 latency badge visible in HUD — trust by transparency. Француз говорит. Через ~600 мс ты слышишь русский поверх приглушённого француза. P50-задержка видна в HUD — доверие через прозрачность.
  5. Mode toggle.Переключение режима. Voice dub · Subtitles · Both. Subtitle overlay is a separate transparent, click-through window. Дубляж · Субтитры · Оба. Слой субтитров — отдельное прозрачное окно, кликается насквозь.

North Star: minutes of audio translated per active user per week. Target 60 min/user/wk by month 3. North Star: минут перевода на активного пользователя в неделю. Цель — 60 мин/нед к 3-му месяцу.

06 · Business Model06 · Модель

Freemium + reverse trial. Freemium + обратный триал.

Subtitles free forever (cheap to serve, viral surface). Voice dubbing is the wow-moment and the paywall. 7 days of Pro on signup — downgrading to subtitles feels like a loss. Субтитры — бесплатно навсегда (дёшево обслуживать, вирусная поверхность). Голосовой дубляж — wow-момент и paywall. 7 дней Pro при регистрации — даунгрейд до субтитров ощущается как потеря.

Free

$0 / mo

60 min/mo translated audio · subtitles only · 1 language pair · single preview voice. Loss-leader, capped. 60 мин/мес перевода · только субтитры · 1 языковая пара · один превью-голос. Loss-leader, с потолком.

Pro · primary tier

$9.99 / mo · $79/yr

Unlimited minutes · voice dubbing · 30+ languages · low-latency mode · history. Soft fair-use cap at 20h/mo (kills 0.5% cost outliers). Безлимит минут · голосовой дубляж · 30+ языков · low-latency режим · история. Мягкий fair-use лимит 20 ч/мес (отсекает 0,5% дорогих outliers).

Studio · Q4 roadmap

$29 / mo

Voice cloning · speaker diarization · 3 team seats · priority infra. Creators & small media teams. Voice-cloning · диаризация спикеров · 3 места в команде · приоритетная инфра. Креаторы и небольшие медиа-команды.

Unit econ — Pro median

$3.40 AI costсебестоимость AI

90 min/mo median user (Deepgram Nova-3 + Gemini 2.5 Flash + Cartesia Sonic). At $9.99 price = 66% gross margin. Heavy 240-min user costs $9.07 — covered by power-law distribution. Медианный пользователь — 90 мин/мес (Deepgram Nova-3 + Gemini 2.5 Flash + Cartesia Sonic). При цене $9,99 — 66% валовой маржи. Тяжёлый юзер на 240 мин стоит $9,07 — покрывается степенным распределением.

ARPU blendedсредняя
$8.50/mo
LTV 18mo · 60% GM18 мес · 60% GM
$91.80
CAC targetцель
$28· 5.5mo payback
07 · Traction07 · Тракшн

Prototype works. Validation plan is concrete. Прототип работает. План валидации — конкретный.

End-to-end pipeline runs on macOS 14.4 with CoreAudio process taps → Deepgram Nova-3 → Gemini 2.5 Flash → ElevenLabs Flash v2.5. Measured ~650ms p50 latency in test sessions. Сквозной пайплайн работает на macOS 14.4: CoreAudio process taps → Deepgram Nova-3 → Gemini 2.5 Flash → ElevenLabs Flash v2.5. Замеренная задержка p50 ≈ 650 мс в тестовых сессиях.

Kill criteria: <10 waitlist signups in W2 = positioning broken. <20% D7 in W4 = product broken. Kill-критерии: <10 регистраций в W2 — поломанное позиционирование. <20% D7 в W4 — поломанный продукт.

08 · Competition08 · Конкуренты

Empty quadrant: system-wide voice dub. Пустой квадрант: системный голосовой дубляж.

Two axes split the market: where the translation happens (per-app vs system-wide) and what it produces (subtitles vs voice dub). Nobody owns system-wide voice dub for consumers. Рынок делится по двум осям: где идёт перевод (внутри одного приложения vs системно) и что он выдаёт (субтитры vs голосовой дубляж). Системного голосового дубляжа для consumer-аудитории нет ни у кого.

Per-appВнутри приложения
System-wideСистемно
Voice dubГолосовой дубляж
DeepL Voice · Teams Interpreter · HeyGen Locked to specific apps or async upload-and-wait. Enterprise-priced. Залочены на конкретные приложения или асинхронны (залить-подождать). Enterprise-цены.
Babelio Any app · real-time · consumer price. The empty quadrant. Любое приложение · realtime · потребительская цена. Пустой квадрант.
SubtitlesСубтитры
Otter · Zoom AI Companion · YouTube auto-CC · Chrome Live Caption Single-app captions. No voice output. Субтитры одного приложения. Без голоса.
Krisp · Wispr Flow System-wide audio (denoise / dictation) — but neither translates. Системный звук (denoise / dictation) — но без перевода.

Big-tech threat: rumored macOS 16 system-wide translate (WWDC 2026). Mitigation: ship 12 months ahead, build Windows moat, scale to $20M+ ARR or get acquired before then. Big-tech угроза: слухи о системном переводе в macOS 16 (WWDC 2026). Контрмера: запуститься на 12 месяцев раньше, держать Windows-моат, дойти до $20M+ ARR или продаться до этого.

09 · Moat & Data Flywheel09 · Моат и data flywheel

The moat is not the AI. Моат — не AI.

STT, MT and TTS are commodity APIs, swappable in days. The moat is OS-audio integration depth, latency engineering, and the per-context routing layer that improves monotonically with usage. STT, MT и TTS — commodity API, меняются за дни. Моат — глубина интеграции с системным звуком, инженерия задержек и слой per-context routing, который растёт монотонно с использованием.

  1. App context → MT prompt routing.Контекст приложения → роутинг MT-промптов. Each session sharpens per-context prompt library: gaming Discord → slang-tuned; Zoom → formal register; bilibili lecture → technical glossary. Каждая сессия уточняет промпт-библиотеку: гейминг-Discord → сленг; Zoom → формальный регистр; bilibili-лекция → технический глоссарий.
  2. User corrections → RLHF-style preference pairs.Исправления пользователей → RLHF-пары предпочтений. One user's "API" stays "API"; another's "Aragorn" stays "Aragorn". Personal glossary outgrows competitor cold-starts. «API» одного остаётся «API», «Арагорн» другого — «Арагорн». Персональный глоссарий обгоняет холодные старты конкурентов.
  3. Acoustic fingerprints per app.Акустические fingerprint'ы по приложениям. Zoom Opus 16kHz vs YouTube AAC 48kHz get app-specific denoise + VAD tuning. Each new app integrated raises the floor for everyone using it. Zoom Opus 16 кГц vs YouTube AAC 48 кГц получают свои denoise и VAD-настройки. Каждое новое интегрированное приложение поднимает планку для всех его пользователей.
  4. Voice clone library (opt-in).Библиотека голосовых клонов (opt-in). Switching cost: re-record clone elsewhere. High retention lever. Стоимость переключения: записывать клон заново. Сильный рычаг retention.
  5. Distribution lead.Дистрибуционный лидер. Creator-reactor beachhead generates a viral artifact (foreign stream dubbed live on stream). 30 active creators → first 1,000 paying users via their audiences. Креатор-реакторный beachhead создаёт вирусный артефакт (иностранный стрим дублируется вживую). 30 активных авторов → первые 1000 платящих через их аудиторию.

Krisp analogАналог Krisp

Krisp proved consumers will pay $8/mo for OS-level audio enhancement — $37.7M revenue, bootstrapped, $90M valuation. Babelio applies the same system-wide architecture to a 10× larger problem (translation > noise). Krisp доказал: потребители платят $8/мес за системное улучшение звука — $37,7M выручки, без раундов, оценка $90M. Babelio применяет ту же архитектуру к проблеме в 10 раз большей (перевод > шум).

10 · Go-to-Market10 · Go-to-Market

Beachhead: reactor creators. Beachhead: стримеры-реакторы.

Reactor channels on Twitch and YouTube reacting to foreign streams generate the highest-leverage demo: thousands of viewers see Babelio work live, in real time, on stream. Free distribution baked into the use case. Реакторы на Twitch и YouTube, реагирующие на иностранные стримы, дают максимальный leverage демо: тысячи зрителей видят Babelio в реальном времени, вживую, на стриме. Бесплатная дистрибуция — встроена в use-case.

ChannelКанал
CAC est.CAC оценка
Vol/mo
Why firstПочему первый
X / Twitter founder demos
$0–3
100–500
Visual wow + tech-Twitter audience converts on novelty.Визуальное wow + tech-Twitter конвертится на новизне.
Reddit show-don't-sellReddit show-don't-sell
$0–5
200–800
r/Twitch · r/LanguageLearning · r/remotework — frustrated users, clip-as-post format.r/Twitch · r/LanguageLearning · r/remotework — фрустрированные юзеры, формат «клип-как-пост».
Creator demosДемо у креаторов
$5–15
500–3,000
Demo IS the ad. 10 reactor creators dilute single-creator risk.Демо = реклама. 10 креаторов размывают риск одного.
ProductHunt launch
$0 + 20h
1K–3K one-shotразовый
Single biggest day; consumer-AI tools hit #1 with polish.Самый большой день; consumer-AI берёт #1 при чистом запуске.
SEO long-tail
$2–8
50 → 2K/mo
"translate Zoom call real time", "dub YouTube video live". 4-6mo compounding.«перевод Zoom в реальном времени», «дубляж YouTube live». Компаундится 4-6 мес.

Deprioritized first 90 days: paid search (no conversion baseline), LinkedIn (wrong audience), TikTok (low-intent desktop installs). Blended CAC target <$20. Депроиритезированы первые 90 дней: paid search (нет базовой конверсии), LinkedIn (не та аудитория), TikTok (низкий intent для desktop). Целевой blended CAC <$20.

11 · Team11 · Команда

Founder shipping. One hire planned. Фаундер пишет код. Один найм запланирован.

Founder · CEO/CTOФаундер · CEO/CTO
[Founder]
Full-stack engineer. Built and shipped the working Babelio prototype solo: Tauri + Rust audio pipeline, CoreAudio process tap integration, end-to-end <700ms streaming. Owns product, engineering, and founder-led GTM (X demos, creator outreach) through M6. Full-stack инженер. В одиночку построил и запустил работающий прототип Babelio: Tauri + Rust аудио-пайплайн, интеграция CoreAudio process tap, end-to-end <700 мс. Ведёт продукт, инженерию и founder-led GTM (демо в X, аутрич креаторам) до M6.
Hire #1 · Audio/Native EngineerНайм #1 · Audio / native инженер
To be hired · M3Найм на M3
Owns Windows WASAPI parity, virtual audio driver (ships our own signed driver post-MVP), and latency optimization across STT/TTS streams. CoreAudio or Windows audio kernel background required. Отвечает за паритет Windows WASAPI, виртуальный аудио-драйвер (свой подписанный после MVP), оптимизацию задержек по STT/TTS. Бэкграунд CoreAudio или Windows audio kernel обязателен.

Post-seed (Y2): founding designer, growth lead. Advisors: targeting one ex-Krisp audio engineer and one consumer-PLG operator. После seed (Y2): founding-дизайнер, growth-лид. Эдвайзеры: ищем ex-Krisp аудио-инженера и consumer-PLG оператора.

12 · Ask12 · Запрос

$300K seed. 14 months runway. $300K seed. 14 месяцев горизонта.

Enough to ship the Mac+Windows MVP, hire one audio engineer, run a brand-grade ProductHunt launch, and pilot paid acquisition once LTV:CAC is validated. Path to $10K MRR base / $29K optimistic by month 12. Хватит на запуск MVP под Mac и Windows, найм одного audio-инженера, чистый ProductHunt-запуск и пилот платной acquisition после валидации LTV:CAC. Путь к $10K MRR в базе / $29K в оптимистике к 12 месяцу.

RaisingПоднимаем
$300,000seed · SAFE
14 months runway · Path to $120K ARR base case · Bootstrap-able to $10K MRR if needed. 14 месяцев горизонта · Путь к $120K ARR в базе · Бутстрап до $10K MRR возможен.
45%
Engineering hireИнженерный найм
~$135K · 1 audio/native engineer (12mo) + founder reduced runway buffer. ~$135K · 1 audio/native инженер (12 мес) + буфер фаундера.
22%
AI credits + infraAI-кредиты + инфра
~$65K · Deepgram + Gemini + ElevenLabs/Cartesia + Fly.io for 12mo at projected scale. ~$65K · Deepgram + Gemini + ElevenLabs/Cartesia + Fly.io на 12 мес при прогнозном объёме.
18%
Brand + launchБренд + запуск
~$55K · brand rename audit, design system, ProductHunt #1 push, creator seeding, signed code certs. ~$55K · бренд-аудит, дизайн-система, продвижение к #1 на PH, seeding креаторам, подписи кода.
15%
Paid acquisition pilotПилот paid acquisition
~$45K · post-PMF only — X/Reddit ads, creator gifting, retargeting. Spends after LTV:CAC validated. ~$45K · только после PMF — реклама в X/Reddit, гифтинг креаторам, ретаргетинг. Тратится после валидации LTV:CAC.

Next round trigger: Studio/Enterprise wedge at M9–12 — voice cloning, SOC2, sales hire. Pre-seed → pre-seed extension or $500K–$1M pre-seed at $5–8M post. Триггер следующего раунда: wedge Studio/Enterprise на M9–12 — voice cloning, SOC2, продажник. Pre-seed → расширение или $500K–$1M pre-seed при $5–8M post.