С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.
Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.
Топ-5 нейросетей для генерации голоса
Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.
AI Voice Changer
AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.
В сервисе есть платные подписки Pro и Plus для доступа к расширенным функциям и дополнительным эффектам. Сделать аудиозапись с измененным голосом можно только на платных тарифах.
VoiceMy
VoiceMy — бесплатная нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями.
ElevenLabs Voice Changer
AI Voice Changer от ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.
Fluxon
Fluxon — программное обеспечение на основе искусственного интеллекта. Может преобразовать текст в аудио, клонировать голос, создавать диалоги и синтезировать голоса, переводить аудио на другой язык. Предусмотрена бесшовная интеграция с другими приложениями.
Resemble AI
Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.
Как самостоятельно создать аудиодипфейк
Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о AI Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.
Регистрация
Чтобы начать работать с программой, необходимо зарегистрироваться. Юзерам доступно два способа:
- Войти с действующего аккаунта Google.
- Указать электронную почту, это будет логин, и придумать пароль для входа.
Далее нейронка просит указать свое имя и рассказать, откуда вы узнали о сервисе.
И еще немного знакомства — рассказать, чем вы занимаетесь и для каких целей планируете использовать AI Voice Changer.
Оплата подписки
В AI Voice Changer пять тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $1 в месяц. За эти деньги сервис предоставляет 30 минут аудиозаписи клонированных голосов и 10 мест в библиотеке для добавления своих речевых исходников.
К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.
Загрузка голоса в библиотеку
Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.
Чтобы добавить голос в библиотеку AI Voice Changer, нужно:
1. В главном меню, расположенном слева, переходим в раздел «Голоса».
2. Нажимаем на плюсик, чтобы добавить исходник для клонирования.
3. В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».
4. Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».
Создание аудиодипфейка
Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью. Мы написали вот такой текст:
«ЦПА Монстро — это медиа-издание о диджитале в целом и партнерском маркетинге в частности. Спецы из разных областей знаний выпускают полезные материалы о сфере и приоткрывают тайну заработка в интернете. Переходите, подписывайтесь и читайте! ЦПА Монстро — лучшее медиа в партнерском маркетинге!».
Чтобы клонировать голос, нужно:
- Перейти в раздел «Речь».
- Выбрать формат преобразования — текст в речь или аудиозапись в речь.
- Выбрать в библиотеке голосов нужный исходник.
- Нажать кнопку «Генерация речи».
Чтобы добиться большей схожести «клона» с исходником и избавиться от роботизированного звучания, можно поиграть с настройками голоса. Но мы оставили настройки по умолчанию для всех трех исходников. Вот что у нас получилось:
Евгений Иванов:
Денис Денисенко:
Моргенштерн:
Поставленная задача выполнена — аудиодипфейки с голосами Евгения Иванова, Дениса Денисенко и Моргенштерна сделаны. Их спичи, созданные нейросетью, звучат неплохо и местами очень похоже на оригинал. Хотя есть проблемы с интонацией и роботизированным звучанием отдельных слов. Но разработчики AI Voice Changer обещают создать максимально реалистичную цифровую копию голоса с качеством аудио 192 кбит/с в более дорогих тарифных планах.
Заключение
Вот и настало «тёмное» цифровое будущее, когда нейросети заговорили чужими голосами. Но не стоит паниковать и отказываться от общения в мессенджерах или по телефону. Нейросети пока еще звучат не совсем естественно и неправильно интонируют впредложениях. Поэтому пока еще отличить искусственный интеллект от человека несложно. А что будет дальше — увидим.