Подготовка данных
Чтобы качественно скопировать голос любого человека, нам необходимо подготовить датасет с 10-30 минутным примером звучания копируемого голоса. Для этого идеально подойдут аудиокниги, подкасты, обзоры и файлы локализации видеоигр. Я же выбрал голос главного редактора портала IXBT. Games Виталия Казунова с его старого видеообзора на YouTube технологии Nvidia RTX Voice.
1. Скачиваем видеоролик и открываем его в любом удобном видеоредакторе. Лично я предпочитаю использовать Shotcut.
3. После того как вы подготовили файлы с желаемым голосом, создаём в корне любого диска папку с именем Dataset и переносим в неё нашу запись. В дальнейшим новая папка будет часто использоваться для работы с нейросетью.
Установка и обучение нейросети
После того как мы подготовили материалы для обучения модели нейронной сети, можно переходить к её установки на ПК.
1. Скачиваем портативный вариант нейросети. Она не требует установки сторонних библиотек, а благодаря энтузиасту, скрывающимся под ником Ba1yya, ещё и полностью переведена на русский язык.
2. Распаковываем файлы архива в любое удобное место и запускаем нейронную сеть через двойной клик по файлу.
Если всё прошло успешно, то вас автоматических перенесёт в вашем веб-браузере на страницу панели управления нейросетью по адресу localhost:7897. На открывшейся странице переходим в раздел «Тренировка» и последовательно следуем шагам, как показано на картинке.
- Задаём название будущей голосовой модели. (Не используйте кириллицу).
- Указываем количество ядер CPU. (Всегда ставьте на 1-2 меньше от макс. доступного числа ядер).
- Запускаем обработку датасета (Записей копируемого голоса).
- Выбираем алгоритм копирования тона. (Советую поставить, как показано на картинке выше).
- Задаём настройки частоты сохранения, максимальное число эпох (качество будущей модели) и нагрузки на GPU.
- Копируем индивидуальные черты голоса человека.
- Запускаем обучение голосовой модели.
Создание качественной голосовой модели может занять продолжительное количество времени. Например, на RTX 3060 Ti и Intel Core 12400F обучение с датасетом длинной 15-20 минут и 500 эпох занимает 3-4 часа реального времени. В консоли сmd вы можете отслеживать текущий прогресс обучения вашей голосовой модели. Перейдём к наглядному использованию.
Использование голосовой модели
Есть множество вариантов задействовать чужой голос: от шутливого поздравления с днём рождения голосом именинника до создания полноценной озвучки. Рассмотрим варианты применения технологии DeepFake Voice подробней.
Инструкция
Благодаря современным технологиям и возросшим мощностям домашних компьютеров копирование и воспроизведение любого голоса даже в режиме реального времени — это весьма не тривиальная задача.
Музыкальное произведение
2. Скачиваем бесплатную программу для отделения вокала (голоса) от инструментала (музыкальных инструментов).
- Выбираем аудиотрек.
- Выбираем папку, куда будут распакованы файлы вокала и инструментала.
- Все настройки выставляем, как на скриншоте выше, и жмём кнопку Start.
В итоге у вас должны получиться два отдельных музыкальных файла. Переносим файл вокала оригинального аудиотрека в новую папку Vokal.
4. Сводим полученную дорожку изменённого вокала со старым инструменталом с помощью видеоредактора.
Конечно, получилось немного с шероховатостями, но мне, если честно, было уже лень обучать модель нейронной сети выше 350 эпох и 8 минут датасета. Однако как пример работы технологии замены голоса вполне сгодится.
Замена голоса в реальном времени
Заменим свой голос, передаваемый напрямую через микрофон в режиме реального времени. Такая шалость идеально подойдёт для онлайн игр и сетевых мессенджеров по типу Discord и Skype.
1. Скачиваем бесплатную утилиту для подмены голоса в режиме реального времени.
2. Скачиваем и устанавливаем драйвер ретранслятора звука Virtual Audio Cable (VAC) или его аналог Virtual Cable. У некоторых пользователей одна из двух программ может не работать. Лично я использую Virtual Audio Cable 4.67. Если всё в порядке, то после установки ПО и перезагрузки ПК в звуковом микшере Windows появится новое звуковое устройство.
3. Запускаем программу для подмены голоса через двойной клик по start_https.bat (Может не работать). В дальнейшем достаточно будет запускать ПО через.
- Выбираем устройство ввода звука (микрофон).
- Выбираем виртуальный микрофон, добавленный Virtual Audio Cable (VAC) или его аналогом Virtual Cable.
- Выставляем оптимальные настройки выбора алгоритма обработки голоса, как на картинке выше.
- Добавляем профиль обученной голосовой модели.
- Настраиваем громкость, тон голоса, повторение тембра. (Услышать свой изменённый голос можно, выставив устройством вывода колонки/наушники).
- Выбираем виртуальный микрофон в игре или ПО и жмём Start.
Часто задаваемые вопросы о синтезе голоса нейросетями
Вопрос: Какие типы нейросетей лучше всего подходят для синтеза голоса?
Ответ: Наиболее эффективными являются модели на основе архитектур Tacotron, WaveNet и их производные, такие как Tacotron 2, а также современные диффузионные модели и большие языковые модели с голосовым интерфейсом.
Вопрос: Сколько аудиоданных нужно для обучения своей голосовой модели?
Ответ: Для получения качественного результата обычно требуется от 30 минут до нескольких часов чистого, разборчивого аудио с одним диктором. Чем больше данных, тем лучше будет качество и естественность синтеза.
Вопрос: Можно ли заставить нейросеть говорить голосом знаменитости?
Ответ: Технически это возможно, если у вас есть достаточная выборка голоса этого человека. Однако использование голоса без согласия человека, особенно в коммерческих целях, может нарушать законодательство об авторском праве и праве на публичный образ.
Вопрос: Требуются ли глубокие знания программирования для создания голосовой модели?
Ответ: Базовые модели можно запустить, следуя готовым инструкциям и используя фреймворки вроде Coqui TTS или Edge-TTS. Однако для тонкой настройки, решения проблем и создания уникальных решений потребуются знания в области машинного обучения и Python.
Вопрос: Какой формат аудиофайлов лучше всего подходит для обучения?
Ответ: Рекомендуется использовать несжатые или мало сжатые форматы с высокой частотой дискретизации, такие как WAV (16-bit, 22-24 кГц). Важна чистота записи, отсутствие фонового шума и посторонних звуков.
Вопрос: Что такое «клон голоса» и чем он отличается от стандартного синтеза?
Ответ: Клон голоса — это модель, обученная на данных конкретного человека, которая максимально точно воспроизводит его тембр, интонации и манеру речи. Стандартный синтез использует предобученные общие голоса.
Вопрос: Можно ли синтезировать голос в реальном времени для стриминга или игр?
Ответ: Да, существуют оптимизированные модели (например, на базе RVC — Retrieval-based Voice Conversion), которые позволяют заменять голос с минимальной задержкой, что применимо для живых трансляций и голосовых чатов.
Вопрос: Какое оборудование нужно для обучения модели?
Ответ: Обучение требует мощной видеокарты (NVIDIA с достаточным объемом памяти VRAM, от 8 ГБ), быстрого процессора и большого объема оперативной памяти (рекомендуется от 16 ГБ). Можно использовать облачные сервисы (Google Colab Pro, AWS).
Вопрос: Как оценить качество синтезированного голоса?
Ответ: Качество оценивается субъективно (естественность, разборчивость, эмоциональная окраска) и объективно с помощью метрик (MOS — Mean Opinion Score, MCD — Mel-Cepstral Distortion). Лучший тест — прослушивание носителями языка.
Вопрос: Есть ли готовые онлайн-сервисы для синтеза голоса без обучения?
Ответ: Да, существуют такие сервисы, как ElevenLabs, Play.ht, Murf.ai, Respeecher и другие. Они предлагают предобученные голоса и возможность создать собственный клон с ограниченным объемом данных, часто через веб-интерфейс.
Краткий чек-лист: от данных до готового голоса
- Определите цель: клон конкретного голоса, новый синтетический голос или замена в реальном времени.
- Подготовьте качественные аудиоданные: чистые записи без шума, с ровной громкостью и одним диктором.
- Сегментируйте аудио на короткие фразы (от 2 до 10 секунд) и создайте текстовую расшифровку для каждого сегмента.
- Выберите подходящую архитектуру нейросети (Tacotron 2, VITS, RVC) в зависимости от ваших задач и ресурсов.
- Настройте среду разработки: установите Python, фреймворк (PyTorch/TensorFlow) и необходимые библиотеки.
- Проведите предобработку данных: нормализуйте аудио, извлеките мел-спектрограммы, подготовьте метаданные для обучения.
- Начните обучение модели, контролируя процесс через логи и графики потерь (loss), чтобы избежать переобучения.
- Протестируйте обученную модель на валидационных данных, которых не было в обучающей выборке.
- Экспортируйте модель в формат, пригодный для инференса (использования), например, TorchScript или ONNX.
- Интегрируйте модель в приложение или используйте готовый скрипт для синтеза речи из текста.
- Оцените результат: проверьте естественность произношения, интонации и отсутствие артефактов.
- При необходимости дообучите модель на проблемных фразах для улучшения качества.
- Рассмотрите возможность постобработки синтезированного аудио (шумоподавление, нормализация) для финального качества.
- Убедитесь в легальности использования синтезированного голоса, особенно если это клон голоса другого человека.




























