Український стартап Respeecher розробив технологію, яка з допомогою штучного інтелекту дозволяє одній людині говорити голосом іншої. Команда працює вже понад три роки - за цей час їм вдалося пройти шлях від пропозицій для озвучення київського метро до роботи з найбільшими студіями Голлівуду. Співзасновник стартапу та CEO Repseecher Олександр Сердюк стверджує, що зараз на ринку немає такої технології, яка б за якістю відповідала їхній
Саме висока якість звуку була пріоритетом стартапу - скільки б часу і ресурсів це не зайняло. Щоб натренувати систему говорити чиїмось голосом, в систему потрібно завантажити близько однієї години аудіо. Саме “тренування” займає від двох до трьох тижнів часу, про це у матеріалі Голос Америки.
“В нас є модель - це нейронна мережа, яка дозволяє зрозуміти різницю між двома або більше конкретними голосами, - пояснює Олександр. - І після того, як вона цю різницю зрозуміє, то може зробити так, щоб один голос звучав точним тембром іншого, залишаючи весь емоційний контекст недоторканим”.
Однією з перших спроб використати технологію був експеримент з озвученням зупинок у київському метро три роки тому. Коли станцію “Петрівка” перейменували на “Почайну” й виникла потреба в новій озвучці, штучний інтелект відтворив добре відомий киянам голос покійного диктора Миколи Петренка. Але зрештою, в Київському метрополітені таку ідею відкинули й переозвучили всі станції заново. “Я вважаю, що Київ трохи втратив від цього, - зізнається Олександр. - Це такий дуже київський голос”.
Тепер українську технологію використовують на великому екрані - Respeecher працює практично зі всіма основними студіями Голлівуду. Зокрема, їхню технологію використали у творах про всесвіт “Зоряних воєн”. У серіалі Disney “Мандалорець” Respeecher допомагав “омолодити” голос Люка Скайвокера. Втім, Олександр Сердюк відмовився розповідати про це більше, посилаючись на договір про нерозголошення.
Один з останніх великих проектів української компанії - Super Bowl - фінал чемпіонату з американського футболу США. Завданням Respeecher було оживити легендарного американського тренера Вінса Ломбарді і зробити так, щоб він виступив з новою промовою. Олександр каже, що це був один з найважчих проектів: “Даних було критично мало. Вони були старі, і якісних записів Вінса було зовсім небагато. Але в результаті звучить класно”.
За словами засновника стартапу, їхня технологія дає можливість по-новому подивитись на історію. Respeecher озвучив ніколи не виголошену промову президента США Річарда Ніксона - яку Білий дім підготував на випадок, якби висадка американців на Місяць не вдалась. Її презентували на фестивалі в Нідерландах.
“Це був не просто відеоролик, а ціла кімната, - пригадує Олександр. - Вона була зроблена в стилі 50-60 років, зі старим телевізором, людина приходила, сідала, натискала кнопку, бачила стару рекламу і потім Ніксон з’являвся і розказував свою промову. Ця промова дуже сильна, але вона залишилась в архівах на багато років. А ми зробили так, що президент Ніксон її сказав”.
Зараз засновники стартапу працюють над новою функцією, яка дозволить змінювати акцент - і робити його зрозумілішим для носіїв рідної мови. Олександр пояснює, що це може мати практичне застосування.
“Наприклад, комусь в Америці можуть не подобатись акценти кол-центрів зі східних регіонів Азії. Ми можемо зробити так, щоб люди на Філіппінах чи люди в Індії розмовляли з менш відчутним акцентом для багатьох людей в США. І таким чином змінити розклад сил. Працівники матимуть більше роботи, її будуть краще оплачувати, і це в принципі справедливіше”.
Олександр Сердюк каже, що абсолютно усвідомлює, які ризики відкриває їхня технологія, і яку відповідальність це накладає на компанію. Через це засновники стартапу вимагають від клієнтів дотримання всіх авторських прав, а самого інструменту немає у вільному доступі.“В нас дуже серйозна етична політика з цього питання, - розповідає Олександр. - Ми не дозволяємо використовувати нашу технологію, якщо немає дозволу на конкретний голос”.
Попри це, він переконаний, що технологію рано чи пізно спробують використати в зловмисних цілях. Тому частина відповідальності полягає в тому, щоб переконатись: люди знають, що зараз будь-що можна змінити та підробити.
“Це та сама історія, яка була з фотошопом. Коли люди бачили зображення, вони звикли в це вірити. Зараз ми вже знаємо, що це не так. Тому такий самий період адаптації має пройти технологія, схожа на нашу”.