Как сообщает
Исследователи из Microsoft создали программное обеспечение, которое может распознавать человеческую речь, а затем воспроизводить сказанное на другом языке, но тем же самым голосом.
Программа была представлена на ежегодном мероприятии TechFest-2012, где корпорация Microsoft представляет свои последние разработки. Она стала одним из самых обсуждаемых проектов и получила неофициальное название – «говорящая голова». А все благодаря тому, что научный исследователь Фрэнк Сунг (Frank Soong), который является главным разработчиком системы, продемонстрировал работу своей программы на примере главы отделения по исследованиям и стратегиям Microsoft Крэйга Мунди (Craig Mundie): эта «голова» произнесла для примера вступительную речь сначала в оригинальном варианте – на английском языке, а затем – на китайском, и голос был действительно очень похож.
Системе требуется около часа настройки, для того чтобы разработать модель чтения любого текста в голос определенного человека – другими словами, для подгонки под параметры голоса пользователя. Во время этой процедуры программа анализирует произнесенные будущим пользователем слова на родном ему языке, разбивая их на звуки, из которых затем складывается произношение на иностранном языке. После этой персонализации программа может прочитать текст на любом из заложенных в ней языков.
Сунг говорит, что такая система обеспечивает двусторонний перевод любой пары из 26 запрограммированных языков, среди которых северокитайский (основная диалектная группа китайских языков).
Сфера применения представленной технологии почти неисчерпаема.
Один из самых простых и практичных способов использования новой технологии – инструментарий для путешественников. Так, по словам автора разработки, на ее основе может быть создан аудиопереводчик, который будет синхронно озвучивать сказанное путешествующим фактически «его же голосом».
Новая технология также может использоваться для помощи в изучении языков. Как рассказывает Сунг, когда человек слышит иностранные фразы, сказанные своим же голосом, восприятие и как следствие запоминание на порядок отличается в качественно лучшую сторону.
Третья важная сфера применения – усовершенствование мобильных навигаторов. Разработчик продемонстрировал, как его программа озвучила дорожные знаки на картах Пекина, и присутствующие подтвердили, что голос и способ прочтения разительно отличаются от «искусственного» голоса, которым обычно наделяют навигаторы. Кроме того, можно предположить, что при внедрении системы Microsoft пользователь сможет сам настроить именно тот тембр голоса и даже акцент произношения, которые придутся ему по душе.
Кроме того, как было продемонстрировано на мероприятии, программа легко применима для создания аватаров на видеоконференциях, собраниях и обсуждениях, усиливая эффект присутствия и выводя его на новый уровень. «Я могу сидеть здесь, в своем офисе в Вашингтоне, и вести переговоры с китайским коллегой. При этом, я разговариваю на английском, а мой аватар – на китайском в реальном времени», – подтвердил Мунди.