A system-wide desktop translator that hijacks any app's audio, mutes the speaker, and dubs them in your language in under 700ms. Системный десктоп-переводчик: перехватывает звук любого приложения, выключает оригинал и озвучивает на твоём языке за 700 мс.
Zoom has its own captions, Teams has Copilot, YouTube has its own subtitles, browser extensions only cover tabs. Nobody dubs voice in real time across every app on the desktop. У Zoom свои субтитры, у Teams — Copilot, у YouTube — свои дорожки, у браузерных расширений — только вкладки. Никто не озвучивает речь в реальном времени поверх всех приложений сразу.
All three want the same thing: shut up the original speaker and feed me the translation — in whatever app they're already in. Все трое хотят одного: заткнуть оригинального спикера и услышать перевод — прямо в том приложении, где они сейчас.
Babelio is a Mac/Windows app that captures any process's audio, ducks the original to 15%, and replays a translated voice dub on top — in <700ms. One install. No browser extension. No meeting-host permission. Works with Zoom, Meet, Teams, YouTube, Twitch, VLC, Discord, Spotify, anything that plays sound. Babelio — приложение для Mac/Windows. Захватывает звук любого процесса, приглушает оригинал до 15% и поверх воспроизводит озвученный перевод за <700 мс. Одна установка. Никаких расширений. Не нужно разрешение организатора звонка. Работает с Zoom, Meet, Teams, YouTube, Twitch, VLC, Discord, Spotify — со всем, что издаёт звук.
A French colleague speaks in Zoom. ~600ms later the user hears a fluent Russian voice over a quiet French murmur. No tab juggling. No copy-paste. No second screen. Two modes ship at MVP: simultaneous voice dub and live subtitle overlay. Французский коллега говорит в Zoom. Через ~600 мс пользователь слышит русский голос поверх тихого французского. Без вкладок, копипасты и второго экрана. В MVP два режима: одновременный голосовой дубляж и живые субтитры поверх.
Below 700ms total, simultaneous dubbing stops feeling like a delayed echo and starts feeling like interpretation. That threshold is new. Ниже 700 мс синхронный дубляж перестаёт ощущаться как эхо и становится переводом. Эта планка — недавняя.
Babelio sits at the intersection of three growing categories: real-time speech translation, AI dubbing, and system-wide audio overlays. Babelio — на пересечении трёх растущих категорий: realtime-перевод речи, AI-дубляж и системные аудио-оверлеи.
Remote workers (US): 32.6M × 15% multilingual × 5% reachable × $8/mo ARPU × 12 = ~$23M ARR. Streamers: ~10M active Twitch creators × 1% × $15/mo = $18M ARR. Students: ~50M paying language learners × 0.3% × $5/mo = $9M ARR. Sum of reachable wedges ~$50M ARR ceiling; conservative Y2 target $5M ARR. Удалёнщики (США): 32,6 млн × 15% мультиязычных × 5% доступных × $8/мес × 12 = ~$23M ARR. Стримеры: ~10 млн активных авторов Twitch × 1% × $15/мес = $18M ARR. Студенты: ~50 млн платящих за изучение языков × 0,3% × $5/мес = $9M ARR. Сумма досягаемых клиньев ~$50M ARR потолок; консервативная цель Y2 — $5M ARR.
Sources: Research and Markets · Expert Market Research · Remotly · Streams Charts.A 10MB Tauri binary. One OS permission. A draggable HUD pill in the top-right of the screen. Cmd+Shift+B to translate any audible app. 10 МБ Tauri-бинарник. Одно системное разрешение. Перетаскиваемая HUD-капсула в углу экрана. Cmd+Shift+B — перевод любого приложения, играющего звук.
North Star: minutes of audio translated per active user per week. Target 60 min/user/wk by month 3. North Star: минут перевода на активного пользователя в неделю. Цель — 60 мин/нед к 3-му месяцу.
Subtitles free forever (cheap to serve, viral surface). Voice dubbing is the wow-moment and the paywall. 7 days of Pro on signup — downgrading to subtitles feels like a loss. Субтитры — бесплатно навсегда (дёшево обслуживать, вирусная поверхность). Голосовой дубляж — wow-момент и paywall. 7 дней Pro при регистрации — даунгрейд до субтитров ощущается как потеря.
60 min/mo translated audio · subtitles only · 1 language pair · single preview voice. Loss-leader, capped. 60 мин/мес перевода · только субтитры · 1 языковая пара · один превью-голос. Loss-leader, с потолком.
Unlimited minutes · voice dubbing · 30+ languages · low-latency mode · history. Soft fair-use cap at 20h/mo (kills 0.5% cost outliers). Безлимит минут · голосовой дубляж · 30+ языков · low-latency режим · история. Мягкий fair-use лимит 20 ч/мес (отсекает 0,5% дорогих outliers).
Voice cloning · speaker diarization · 3 team seats · priority infra. Creators & small media teams. Voice-cloning · диаризация спикеров · 3 места в команде · приоритетная инфра. Креаторы и небольшие медиа-команды.
90 min/mo median user (Deepgram Nova-3 + Gemini 2.5 Flash + Cartesia Sonic). At $9.99 price = 66% gross margin. Heavy 240-min user costs $9.07 — covered by power-law distribution. Медианный пользователь — 90 мин/мес (Deepgram Nova-3 + Gemini 2.5 Flash + Cartesia Sonic). При цене $9,99 — 66% валовой маржи. Тяжёлый юзер на 240 мин стоит $9,07 — покрывается степенным распределением.
End-to-end pipeline runs on macOS 14.4 with CoreAudio process taps → Deepgram Nova-3 → Gemini 2.5 Flash → ElevenLabs Flash v2.5. Measured ~650ms p50 latency in test sessions. Сквозной пайплайн работает на macOS 14.4: CoreAudio process taps → Deepgram Nova-3 → Gemini 2.5 Flash → ElevenLabs Flash v2.5. Замеренная задержка p50 ≈ 650 мс в тестовых сессиях.
Kill criteria: <10 waitlist signups in W2 = positioning broken. <20% D7 in W4 = product broken. Kill-критерии: <10 регистраций в W2 — поломанное позиционирование. <20% D7 в W4 — поломанный продукт.
Two axes split the market: where the translation happens (per-app vs system-wide) and what it produces (subtitles vs voice dub). Nobody owns system-wide voice dub for consumers. Рынок делится по двум осям: где идёт перевод (внутри одного приложения vs системно) и что он выдаёт (субтитры vs голосовой дубляж). Системного голосового дубляжа для consumer-аудитории нет ни у кого.
Big-tech threat: rumored macOS 16 system-wide translate (WWDC 2026). Mitigation: ship 12 months ahead, build Windows moat, scale to $20M+ ARR or get acquired before then. Big-tech угроза: слухи о системном переводе в macOS 16 (WWDC 2026). Контрмера: запуститься на 12 месяцев раньше, держать Windows-моат, дойти до $20M+ ARR или продаться до этого.
STT, MT and TTS are commodity APIs, swappable in days. The moat is OS-audio integration depth, latency engineering, and the per-context routing layer that improves monotonically with usage. STT, MT и TTS — commodity API, меняются за дни. Моат — глубина интеграции с системным звуком, инженерия задержек и слой per-context routing, который растёт монотонно с использованием.
Krisp proved consumers will pay $8/mo for OS-level audio enhancement — $37.7M revenue, bootstrapped, $90M valuation. Babelio applies the same system-wide architecture to a 10× larger problem (translation > noise). Krisp доказал: потребители платят $8/мес за системное улучшение звука — $37,7M выручки, без раундов, оценка $90M. Babelio применяет ту же архитектуру к проблеме в 10 раз большей (перевод > шум).
Reactor channels on Twitch and YouTube reacting to foreign streams generate the highest-leverage demo: thousands of viewers see Babelio work live, in real time, on stream. Free distribution baked into the use case. Реакторы на Twitch и YouTube, реагирующие на иностранные стримы, дают максимальный leverage демо: тысячи зрителей видят Babelio в реальном времени, вживую, на стриме. Бесплатная дистрибуция — встроена в use-case.
Deprioritized first 90 days: paid search (no conversion baseline), LinkedIn (wrong audience), TikTok (low-intent desktop installs). Blended CAC target <$20. Депроиритезированы первые 90 дней: paid search (нет базовой конверсии), LinkedIn (не та аудитория), TikTok (низкий intent для desktop). Целевой blended CAC <$20.
Post-seed (Y2): founding designer, growth lead. Advisors: targeting one ex-Krisp audio engineer and one consumer-PLG operator. После seed (Y2): founding-дизайнер, growth-лид. Эдвайзеры: ищем ex-Krisp аудио-инженера и consumer-PLG оператора.
Enough to ship the Mac+Windows MVP, hire one audio engineer, run a brand-grade ProductHunt launch, and pilot paid acquisition once LTV:CAC is validated. Path to $10K MRR base / $29K optimistic by month 12. Хватит на запуск MVP под Mac и Windows, найм одного audio-инженера, чистый ProductHunt-запуск и пилот платной acquisition после валидации LTV:CAC. Путь к $10K MRR в базе / $29K в оптимистике к 12 месяцу.
Next round trigger: Studio/Enterprise wedge at M9–12 — voice cloning, SOC2, sales hire. Pre-seed → pre-seed extension or $500K–$1M pre-seed at $5–8M post. Триггер следующего раунда: wedge Studio/Enterprise на M9–12 — voice cloning, SOC2, продажник. Pre-seed → расширение или $500K–$1M pre-seed при $5–8M post.