Степ намбер ван — устанавливаем Python
В одной из прошлых статей мы писали как это сделать, переходите на эту статью и просто выполните первый пункт из нее, не более.
Устанавливаем саму нейросеть
В одной из прошлых статей мы писали как это сделать, переходите на эту статью и просто выполните первый пункт из нее, не более.
Разделяем песню, которую хотим изменить, на отдельные части: инструментал и вокал
В просторах интернета много ресурсов, где вы можете это сделать. Вот некоторые из них:
Vocalremover. Бесплатно дается 1 файл максимальной продолжительностью 10 минут, более обширен в инструментах, можно выделить и отдельные инструментальные партии.
Бесплатный mvsep. Ничего сложного, загружаете аудиозапись, выбираете тип разделения «вокал, музыка», скачиваете оба файла
Скачиваем голосовую модель (то есть тот голос, в чьем исполнении мы хотим услышать песню)
Переходим по ссылочке в нужный нам канал и выбираем из предложенных голос того человека или персонажа, который нам нужен, кликаем на него, открывается пост, в нем указана ссылка, как правило, на облачное хранилище. Вы увидите там либо архив к скачиванию, либо файлы. Вам обязательно нужно, чтобы было два файла в форматах pth и json. Сохраняем их на компьютер.
Наконец-то приступаем к работе с нейросетью
Если вдруг у вас не получилось и вышла ошибка, например, что такой команды нет, попробуйте найти отдельно приложение в папке с Python и запустить его.
У нас вышло такое окно, но мы не стали вникать, просто окнули, подождали и все открылось.
В поле Input audio path выбираем аудиофайл где только вокал той песни, которую мы будем менять:
Здесь вы задаете имя и расположением новой аудиозаписи, которая получиться в конце:
Рекомендуем снять галочку с Auto play, чтобы не снижать производительность:
Если вы хорошо шарите в звукообработке, то настраиваете поля как считаете нужным, если нет — позвольте системе применить параметры по умолчанию и самой подстроиться под ваш файл
В командной строке происходит процесс обработки, отображается ее статус, делать ничего не нужно:
По окончанию, в заданной вами папке, найдете долгожданную запись.А здесь прикладываем наш AI-кавер на песню группы a-ha «Take on me» голосом Эрика Картмана из «Южного Парка».
Часто задаваемые вопросы о создании голосовых моделей
Вопрос: Какой минимальный объем голосовых данных нужен для обучения модели?
Ответ: Для получения приемлемого качества обычно требуется не менее 30-60 минут чистого, разборчивого аудио, записанного в хороших условиях.
Вопрос: Можно ли использовать для обучения аудио из публичных видео или подкастов?
Ответ: Технически можно, но это может нарушать авторские права и условия использования материалов. Для личных экспериментов лучше использовать свой голос или получить явное разрешение.
Вопрос: Обязательно ли знать программирование, чтобы создать голосовую модель?
Ответ: Базовые скрипты и установка ПО требуют следования инструкциям. Глубокое знание программирования не обязательно для использования готовых решений, но полезно для кастомизации.
Вопрос: Какой формат аудиофайлов лучше всего подходит для датасета?
Ответ: Предпочтительны lossless-форматы, такие как WAV или FLAC, с высокой частотой дискретизации (например, 44.1 кГц или 48 кГц) и моно-/стереозаписью без сжатия.
Вопрос: Чем отличается обучение модели с нуля от fine-tuning?
Ответ: Обучение с нуля требует огромного датасета и вычислительных ресурсов. Fine-tuning (дообучение) адаптирует предварительно обученную модель под новый голос, используя меньше данных.
Вопрос: Как добиться естественного звучания синтезированного голоса?
Ответ: Качество исходного датасета — ключевой фактор. Нужны записи без шума, с разной интонацией и эмоциональной окраской. Часто помогает последующая обработка аудио (нормализация, подавление шума).
Вопрос: Какое железо (ПК) необходимо для обучения модели?
Ответ: Критически важна мощная видеокарта (GPU) с большим объемом памяти (от 6-8 ГБ). Также важен быстрый SSD и достаточный объем оперативной памяти (от 16 ГБ).
Вопрос: Сколько времени занимает процесс обучения модели?
Ответ: Время сильно варьируется: от нескольких часов для дообучения на небольшом датасете до нескольких дней или недель для обучения с нуля на мощном железе.
Вопрос: Можно ли создать модель, которая будет петь?
Ответ: Да, но для этого нужны специализированные архитектуры нейросетей (например, DiffSinger, VISinger) и датасет, состоящий именно из вокальных записей, желательно с разными нотами и техниками.
Вопрос: Какие основные ошибки допускают новички при создании первой модели?
Ответ: 1) Недостаточный или некачественный датасет. 2) Неправильная подготовка аудио (наличие шумов, артефактов). 3) Неверные настройки гиперпараметров обучения. 4) Попытка обучить слишком сложную модель на слабом железе.
Краткий чек-лист: путь к своей голосовой модели
- Убедитесь, что ваш компьютер имеет достаточно мощный GPU (видеокарта NVIDIA с 6+ ГБ памяти).
- Установите Python актуальной версии и создайте виртуальное окружение для проекта.
- Выберите подходящую фреймворк/репозиторий для синтеза речи (например, TensorFlowTTS, Coqui TTS, MockingBird).
- Внимательно установите нейросеть и все её зависимости согласно официальной инструкции.
- Подготовьте датасет: соберите 30-60 минут чистых записей нужного голоса в формате WAV/FLAC.
- Очистите аудио от шумов, нормализуйте громкость, разделите на короткие фрагменты (5-15 секунд).
- Разметьте датасет (при необходимости) — создайте текстовую расшифровку для каждого аудиофайла.
- Разделите данные на обучающую и тестовую выборки (например, 90% на 10%).
- Настройте конфигурационный файл модели под свои параметры (частота дискретизации, путь к данным).
- Запустите процесс предобработки данных (preprocessing) для создания спектрограмм или иных признаков.
- Начните обучение модели, мониторя процесс через логи или визуализацию (например, в TensorBoard).
- Проверяйте сгенерированные примеры (чекипоинты) в процессе обучения для оценки прогресса.
- После завершения обучения протестируйте модель на текстах, которых не было в датасете.
- Экспортируйте готовую модель в нужный формат для последующего использования или инференса.
- Для конвертации песни: отделите вокал от инструментала, обработайте вокал через модель, сведите с минусом.




























