В Microsoft научили ИИ имитировать любой человеческий голос – видео

В Microsoft научили ИИ имитировать любой человеческий голос – видео

VALL-E может имитировать тембр и манеру речи, прослушав голос реального человека всего три секунды. И хотя звучание немного выдает электронный голос, результат все равно поражает – модель синтеза речи может сохранить эмоциональный тон говорящего и даже акустическую среду.

Microsoft назвала свою разработку "языковой моделью нейронного кодека". VALL-E создавалась на основе EnCodec, звукового кодека, использующего методы машинного обучения, разработанном Meta в 2022 году.

В отличие от других методов преобразования текста в язык, обычно синтезирующих речь путем манипулирования формами волн, VALL-E генерирует отдельные коды аудиокодеков из текстовых и акустических подсказок. Фактически, он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты "токены" благодаря EnCodec, и использует обучающие данные, чтобы отвечать тому, что он "знает" о том, как звучал бы этот голос, если бы он говорил другие фразы вне трехсекундного образца.

В статье, описывающей технологию, присутствует несколько сравнительных записей. Они разделены на 4 колонки:

  • В пункте Speaker Prompt можно прослушать оригинальную запись голоса, ограниченную лишь тремя секундами.
  • В колонке Ground Truth – фраза целиком.
  • Baseline приводит пример обычного синтезатора языка.
  • Четвертая колонка позволяет прослушать фразу в исполнении нейросети VALL-E.

VALL-E учили на основе библиотеки LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. Разработчики предполагают, что технологию можно использовать для высококачественных программ преобразования текста в вещание, редактирования записей языка, где слова человека разрешается менять, создания аудиоконтента и прочего.

ПОДЕЛИТЬСЯ
ВСЕ ПО ТЕМЕ
КОММЕНТАРИИ
НОВОСТИ ПАРТНЕРОВ
ЗНАКОМСТВА
МЫ НА FACEBOOK