EYE 679
EYE 06.05.2024

Не верь ушам своим: нейросети для клонирования чужого голоса

Chief автор статьи
Chief автор статьи

С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит. 

Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.

Не верь ушам своим: нейросети для клонирования чужого голоса

Топ-5 нейросетей для генерации голоса

Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.

AI Voice Changer

AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.

Не верь ушам своим: нейросети для клонирования чужого голоса

В сервисе есть платные подписки Pro и Plus для доступа к расширенным функциям и дополнительным эффектам. Сделать аудиозапись с измененным голосом можно только на платных тарифах.

VoiceMy

VoiceMy — бесплатная нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями.

Не верь ушам своим: нейросети для клонирования чужого голоса

ElevenLabs Voice Changer

AI Voice Changer от ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.

Не верь ушам своим: нейросети для клонирования чужого голоса

Fluxon

Fluxon — программное обеспечение на основе искусственного интеллекта. Может преобразовать текст в аудио, клонировать голос, создавать диалоги и синтезировать голоса, переводить аудио на другой язык. Предусмотрена бесшовная интеграция с другими приложениями.

Не верь ушам своим: нейросети для клонирования чужого голоса

Resemble AI

Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.

Не верь ушам своим: нейросети для клонирования чужого голоса

Как самостоятельно создать аудиодипфейк

Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о AI Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна. 

Регистрация

Чтобы начать работать с программой, необходимо зарегистрироваться. Юзерам доступно два способа:

  1. Войти с действующего аккаунта Google.
  2. Указать электронную почту, это будет логин, и придумать пароль для входа.
Не верь ушам своим: нейросети для клонирования чужого голоса

Далее нейронка просит указать свое имя и рассказать, откуда вы узнали о сервисе. 

Не верь ушам своим: нейросети для клонирования чужого голоса

И еще немного знакомства — рассказать, чем вы занимаетесь и для каких целей планируете использовать AI Voice Changer.

Не верь ушам своим: нейросети для клонирования чужого голоса

Оплата подписки

В AI Voice Changer пять тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $1 в месяц. За эти деньги сервис предоставляет 30 минут аудиозаписи клонированных голосов и 10 мест в библиотеке для добавления своих речевых исходников.

Не верь ушам своим: нейросети для клонирования чужого голоса

К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.

Загрузка голоса в библиотеку

Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон. 

Чтобы добавить голос в библиотеку AI Voice Changer, нужно:

1. В главном меню, расположенном слева, переходим в раздел «Голоса».

2. Нажимаем на плюсик, чтобы добавить исходник для клонирования.

Не верь ушам своим: нейросети для клонирования чужого голоса

3. В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».

Не верь ушам своим: нейросети для клонирования чужого голоса

4. Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».

Не верь ушам своим: нейросети для клонирования чужого голоса

Создание аудиодипфейка

Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью. Мы написали вот такой текст: 

«ЦПА Монстро — это медиа-издание о диджитале в целом и партнерском маркетинге в частности. Спецы из разных областей знаний выпускают полезные материалы о сфере и приоткрывают тайну заработка в интернете. Переходите, подписывайтесь и читайте! ЦПА Монстро — лучшее медиа в партнерском маркетинге!».

Чтобы клонировать голос, нужно:

  1. Перейти в раздел «Речь».
  2. Выбрать формат преобразования — текст в речь или аудиозапись в речь.
  3. Выбрать в библиотеке голосов нужный исходник.
  4. Нажать кнопку «Генерация речи».
Не верь ушам своим: нейросети для клонирования чужого голоса

Чтобы добиться большей схожести «клона» с исходником и избавиться от роботизированного звучания, можно поиграть с настройками голоса. Но мы оставили настройки по умолчанию для всех трех исходников. Вот что у нас получилось:

Евгений Иванов:

Денис Денисенко:

Моргенштерн:

Поставленная задача выполнена — аудиодипфейки с голосами Евгения Иванова, Дениса Денисенко и Моргенштерна сделаны. Их спичи, созданные нейросетью, звучат неплохо и местами очень похоже на оригинал. Хотя есть проблемы с интонацией и роботизированным звучанием отдельных слов. Но разработчики AI Voice Changer обещают создать максимально реалистичную цифровую копию голоса с качеством аудио 192 кбит/с в более дорогих тарифных планах.

Заключение

Вот и настало «тёмное» цифровое будущее, когда нейросети заговорили чужими голосами. Но не стоит паниковать и отказываться от общения в мессенджерах или по телефону. Нейросети пока еще звучат не совсем естественно и неправильно интонируют впредложениях. Поэтому пока еще отличить искусственный интеллект от человека несложно. А что будет дальше — увидим.

Chief автор статьи
Количество статей: 479
EYE 679
EYE 06.05.2024
Количество статей: 479

Добавить комментарий

Ваш адрес email не будет опубликован.