«Яндекс» разработал технологию синтеза речи, а также технологии голосовой активации и выделения смысловых объектов в речи. Об этом представители компании рассказали на проходящей в настоящее время в Москве ежегодной конференции для разработчиков YaC.
Технология синтеза речи применяется для задач озвучивания динамически обновляемой информации, например, в телефонии, когда для клиента банка нужно озвучить состояние текущего счета в автоматическом режиме, или в робототехнике, для озвучивания ответа. Синтез речи может быть полезен для мобильных приложений, которыми люди пользуются в ситуациях, когда у них заняты руки и нет возможности читать текст с экрана.
Технология понимания естественного языка (выделения смысловых объектов) позволяет выделить в распознанном тексте объекты, например, дату, время, фамилию или адрес. Технология позволяет управлять компьютером или смартфоном фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи. Это позволит в автоматизированном режиме заполнить необходимые поля и оформить заказ.
Наконец, с помощью технологии голосовой активации разработчик любого приложения может придумать собственную голосовую команду активации голосового взаимодействия (чтобы начать управлять голосом). Например, для приложения с рецептами, которое часто используют в процессе приготовления еды.
Голосовая активация — по сути, это уменьшенная версия системы распознавания речи, работающая прямо на устройстве, без подключения к интернету, рассказали в компании. Самое сложное при разработке этой технологии было обеспечить энергоэффективность. «Яндекс» в первую очередь анализирует звуковой поток на наличие речи. После того как речь найдена, включается распознавание текста. Это позволяет значительно сэкономить потребление ресурсов, пояснили в «Яндексе».
Протестировать новые технологии Yandex SpeechKit можно в демонстрационном приложении «Яндекс.Диктовка», работающем на платформе Android. Для того чтобы включить распознавание голоса, нужно сказать приложению «Яндекс, записывай!». После этого можно продиктовать телефону произвольный текст — например, SMS-сообщение коллеге или рецепт для ужина. Технология распознавания речи переведет речь в текст.
Технология выделения смысловых объектов даст возможность отредактировать текст с помощью голосовых команд: «добавь веселый смайлик», «удали последнее слово», «замени слово осень на весна» и «начни с новой строки». Технология cинтеза речи прочитает надиктованный текст с помощью команды «Прочитай все».
Надиктованный в демо-приложении текст можно скопировать в буфер и загрузить в SMS-сообщение, письмо, комментарий в социальной сети или сохранить как заметку. Для этого нужно сказать одну из команд: «отправь СМС», «отправь в твиттер», «отправь письмо». Все тексты автоматически сохраняются в заметки, которые можно загрузить на «Яндекс.Диск».
Все новые технологии вошли в существующий пакет инструментов для разработчиков приложений Yandex SpeechKit.
Первый продукт пакета SpeechKit компания «Яндекс» представила в октябре 2013 г. Им стал инструмент для распознавания голоса. В августе 2014 г. компания добавила облачный сервис под названием SpeechKit Cloud — он позволил реализовывать функцию распознавания речи практически в любых устройствах: от смартфонов до медицинской и робототехники.
Согласно информации на официальном сайте компании, разработчики приложений для Android, iOS и Windows Phone могут использовать все инструменты SpeechKit Mobile SDK бесплатно, если количество голосовых обращений к приложению не превышает 10 тыс. запросов в сутки. Если число запросов превышает указанный порог, «Яндекс» готов предложить индивидуальные тарифы. Стоимость услуги зависит от количества и объемов запросов (средняя цена — $5 за 1000 запросов).