«Яндекс» научился синтезировать речь и понимать естественный язык -

«Яндекс» расширил пакет инструментов для разработчиков мобильных приложений Yandex SpeechKit тремя новыми технологиями: активации по голосовой команде, синтеза речи и понимания естественного языка.

«Яндекс» разработал технологию синтеза речи, а также технологии голосовой активации и выделения смысловых объектов в речи. Об этом представители компании рассказали на проходящей в настоящее время в Москве ежегодной конференции для разработчиков YaC.

Технология синтеза речи применяется для задач озвучивания динамически обновляемой информации, например, в телефонии, когда для клиента банка нужно озвучить состояние текущего счета в автоматическом режиме, или в робототехнике, для озвучивания ответа. Синтез речи может быть полезен для мобильных приложений, которыми люди пользуются в ситуациях, когда у них заняты руки и нет возможности читать текст с экрана.

Технология понимания естественного языка (выделения смысловых объектов) позволяет выделить в распознанном тексте объекты, например, дату, время, фамилию или адрес. Технология позволяет управлять компьютером или смартфоном фразами, которые не нужно заучивать. Например, для сервиса автоматизированного заказа такси: пользователь голосом заказывает такси, технология переводит речь в текст и выделяет такие объекты, как адрес и время подачи. Это позволит в автоматизированном режиме заполнить необходимые поля и оформить заказ.

- Рекомендации -

Наконец, с помощью технологии голосовой активации разработчик любого приложения может придумать собственную голосовую команду активации голосового взаимодействия (чтобы начать управлять голосом). Например, для приложения с рецептами, которое часто используют в процессе приготовления еды.

Голосовая активация — по сути, это уменьшенная версия системы распознавания речи, работающая прямо на устройстве, без подключения к интернету, рассказали в компании. Самое сложное при разработке этой технологии было обеспечить энергоэффективность. «Яндекс» в первую очередь анализирует звуковой поток на наличие речи. После того как речь найдена, включается распознавание текста. Это позволяет значительно сэкономить потребление ресурсов, пояснили в «Яндексе».

Протестировать новые технологии Yandex SpeechKit можно в демонстрационном приложении «Яндекс.Диктовка», работающем на платформе Android. Для того чтобы включить распознавание голоса, нужно сказать приложению «Яндекс, записывай!». После этого можно продиктовать телефону произвольный текст — например, SMS-сообщение коллеге или рецепт для ужина. Технология распознавания речи переведет речь в текст.

Технология выделения смысловых объектов даст возможность отредактировать текст с помощью голосовых команд: «добавь веселый смайлик», «удали последнее слово», «замени слово осень на весна» и «начни с новой строки». Технология cинтеза речи прочитает надиктованный текст с помощью команды «Прочитай все».

Надиктованный в демо-приложении текст можно скопировать в буфер и загрузить в SMS-сообщение, письмо, комментарий в социальной сети или сохранить как заметку. Для этого нужно сказать одну из команд: «отправь СМС», «отправь в твиттер», «отправь письмо». Все тексты автоматически сохраняются в заметки, которые можно загрузить на «Яндекс.Диск».

Все новые технологии вошли в существующий пакет инструментов для разработчиков приложений Yandex SpeechKit.

Первый продукт пакета SpeechKit компания «Яндекс» представила в октябре 2013 г. Им стал инструмент для распознавания голоса. В августе 2014 г. компания добавила облачный сервис под названием SpeechKit Cloud — он позволил реализовывать функцию распознавания речи практически в любых устройствах: от смартфонов до медицинской и робототехники.

Согласно информации на официальном сайте компании, разработчики приложений для Android, iOS и Windows Phone могут использовать все инструменты SpeechKit Mobile SDK бесплатно, если количество голосовых обращений к приложению не превышает 10 тыс. запросов в сутки. Если число запросов превышает указанный порог, «Яндекс» готов предложить индивидуальные тарифы. Стоимость услуги зависит от количества и объемов запросов (средняя цена — $5 за 1000 запросов).

«Яндекс» научился синтезировать речь и понимать естественный язык

Рекомендуем

17 ценных советов от Карлоса Кастанеды

Плетение Родового Древа РОДОРАД

Дети и уборка. 5 рабочих лайфхака для поддержания порядка

Спирулина — бесценный дар природы

Контурирование лица или как сделать идеальное лицо

Статьи по теме

Как выбрать надёжного поставщика товаров в Китае

СФР пообещал выплатить часть пенсий за январь 2025 года до 28 декабря

SECO Швейцарии признало заморозку $1,45 млрд активов из РФ без мнения владельцев

Генпрокуратура РФ внесла представление ДУМ из-за поддержки многоженства

Глава комитета ГД Боярский опроверг слухи о блокировке WhatsApp в 2025 году

Новое на ГИПОРТ

Как выбрать надёжного поставщика товаров в Китае

СФР пообещал выплатить часть пенсий за январь 2025 года до 28 декабря

SECO Швейцарии признало заморозку $1,45 млрд активов из РФ без мнения владельцев

Генпрокуратура РФ внесла представление ДУМ из-за поддержки многоженства

Глава комитета ГД Боярский опроверг слухи о блокировке WhatsApp в 2025 году

Ушаков заявил об отсутствии просьб от США о проведении визита Келлога в Москву

Боуз: Зеленский недоволен, что Фицо не хочет уничтожить Словакию ради Киева

Нижегородец ушел на СВО, чтобы приставы не арестовали его дачу и землю