В Microsoft научили ИИ имитировать любой человеческий голос – видео
VALL-E может имитировать тембр и манеру речи, прослушав голос реального человека всего три секунды. И хотя звучание немного выдает электронный голос, результат все равно поражает – модель синтеза речи может сохранить эмоциональный тон говорящего и даже акустическую среду.
Microsoft назвала свою разработку "языковой моделью нейронного кодека". VALL-E создавалась на основе EnCodec, звукового кодека, использующего методы машинного обучения, разработанном Meta в 2022 году.
В отличие от других методов преобразования текста в язык, обычно синтезирующих речь путем манипулирования формами волн, VALL-E генерирует отдельные коды аудиокодеков из текстовых и акустических подсказок. Фактически, он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты "токены" благодаря EnCodec, и использует обучающие данные, чтобы отвечать тому, что он "знает" о том, как звучал бы этот голос, если бы он говорил другие фразы вне трехсекундного образца.
В статье, описывающей технологию, присутствует несколько сравнительных записей. Они разделены на 4 колонки:
- В пункте Speaker Prompt можно прослушать оригинальную запись голоса, ограниченную лишь тремя секундами.
- В колонке Ground Truth – фраза целиком.
- Baseline приводит пример обычного синтезатора языка.
- Четвертая колонка позволяет прослушать фразу в исполнении нейросети VALL-E.
VALL-E учили на основе библиотеки LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. Разработчики предполагают, что технологию можно использовать для высококачественных программ преобразования текста в вещание, редактирования записей языка, где слова человека разрешается менять, создания аудиоконтента и прочего.
Surprised there isn't more chatter around VALL-E
— Steven Tey (@steventey) January 9, 2023
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc