Искусственный интеллект Microsoft VALL-E может имитировать любой человеческий голос, послушав оригинал всего три секунды

Аватар пользователя erdn

Сохраняется тембр и эмоциональный окрас

Компания Microsoft представила искусственный интеллект VALL-E, который способен имитировать любой человеческий голос на основе примера длительностью всего в три секунды. При этом голос имитируется очень достоверно, с сохранением как тембра, так и эмоциональной окраски оригинала. 

Сама Microsoft называет VALL-E «языковой моделью нейронного кодека». Разработка опирается на технологии EnCodec. В отличие от других методов преобразования текста, которые зачастую синтезируют речь, манипулируя формами сигналов, разработка Microsoft в основном анализирует, как именно звучит человек, разбивает эту информацию на отдельные «токены» и использует обучающие данные, чтобы сопоставить свои «знания» о том, как этот голос будет звучать, если ИИ произнесёт другие фразы.  

Схема работы.

VALL-E обучали на библиотеке LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. 

Google показала свой ИИ Duplex, который тоже может говорить практически неотличимо от человека, ещё в 2018 году, но суть разработки Microsoft не в самом ИИ, а именно в его способности имитировать разные голоса. 

На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий. 

 

Авторство: 
Копия чужих материалов
Комментарий автора: 

Помнится, был отечественный фильм "Вторжение" по данной теме. Уже здесь.

Комментарии

Аватар пользователя Сергей Сущенко
Сергей Сущенко(4 года 7 месяцев)

Это щас привет Соловьёву прочитал? Когда они нам давно дохлого Коломойшу на пару с Гордоном впаривали. 

Аватар пользователя Петербуржец
Петербуржец(2 года 9 месяцев)
Аватар пользователя alexsword
alexsword(13 лет 1 месяц)

да, баян, сворачиваю

Аватар пользователя erdn
erdn(11 лет 2 недели)

Добрый вечер! Прошу пардону. Поиском не смог найти по сайту, видимо, по рассеянности.

Аватар пользователя genri-lezin
genri-lezin(7 лет 6 месяцев)

Такие синтезаторы должны содержать в своих программах  трудно обнаруживаемые секретные  метки, свидетельствующие о том, что данная речь искусственная.

Аватар пользователя erdn
erdn(11 лет 2 недели)

В мирное время -- наверное. А при военной операции -- скорее всего, никаких меток.

См. новость про то, что наше Минобороны предупредило о том, что НАТО использует подставные БС уже для разных целей, в т.ч., дезинформации.

Осталось сложить два и два.

Аватар пользователя Хмурый ослик

Почему они все, упорно, называют ЭТО "искусственным интеллектом"??????

Аватар пользователя erdn
erdn(11 лет 2 недели)

Добрый день!

Видимо, потому-что на настоящий ИИ забили болт, или он остался только как военная тема, т.е., не публичен. А вообще да, термин некорректен.

Аватар пользователя Хмурый ослик

Было ужЕ, как минимум, три волны возбуждения интереса к ИИ.
Но тогда, хотя бы как-то пытались модельки построить, чтобы скопировать (хотя бы функционально), как оно действительно в черепушках "работает"...
А теперь - всё к статистике свелось с системами линейных уравнений!

А, потом, как и физики, эти господа будут призывать нас "просто поверить, что оно работает"...

Интересно, а куда подевались системы машинного перевода, основанные на построении семантических сетей, которые показывали очень даже приличные (даже - для сегодняшнего дня!) результаты? И это - на ТОЙ технике, между прочим...
Я последнюю книгу (на русском) с их упоминанием, где-то за середину-конец 1970-х встретил...
Может, и - правда, вояки и спецслужбы всё себе забрали и загрифовали?