Новое исследование показало, что технология синтеза речи на основе ИИ достигла уровня, когда создаваемые ею «голосовые клоны» (дипфейки) воспринимаются слушателями как такие же реалистичные, как и записи настоящих людей.
Работа, проведённая учёными из Лондонского университета королевы Марии (QMUL), была опубликована в журнале PLOS One.
Многие до сих пор считают, что речь, сгенерированная ИИ, звучит «неестественно» и её легко отличить от человеческого голоса. Однако исследование, в котором сравнивали настоящие голоса с двумя типами синтетических — клонированными (созданными для имитации конкретного человека) и общими (генерируемыми крупной голосовой моделью) — показало, что эта эпоха прошла.
Участники эксперимента оценивали голоса по реалистичности, доминированию и надёжности. Выяснилось, что слушателям крайне сложно отличить клонированные ИИ-голоса от человеческих. Оба типа ИИ-голосов были оценены как более доминирующие, чем человеческие, а некоторые синтетические голоса также воспринимались как более надёжные (заслуживающие доверия).
Доктор Надин Лаван, соавтор исследования, отмечает, что время, когда ИИ начнёт производить натуральную, человекоподобную речь, наступило. Она подчеркнула, насколько быстро и просто её команда смогла создать точные голосовые клоны, используя коммерчески доступное программное обеспечение.
Стремительное улучшение ИИ-голосов несёт в себе серьёзные этические, юридические последствия и угрозы безопасности. Возрастают риски, связанные с дезинформацией, мошенничеством, несанкционированным использованием голоса и выдачей себя за другое лицо (имперсонация).
В то же время, способность генерировать реалистичные голоса в больших масштабах открывает захватывающие возможности для улучшения доступности, образования и коммуникации, где высококачественные синтетические голоса могут значительно улучшить пользовательский опыт.
Источник: PLOS

