
Искусственный интеллект стремительно меняет наш мир, затрагивая даже такие тонкие сферы, как восприятие человеческой речи. Современные технологии синтеза речи достигли такого уровня совершенства, что их возможности поражают даже специалистов. В результате масштабного исследования, проведенного в Лондонском университете Королевы Марии (Queen Mary University of London) и Университетском колледже Лондона (University College London) (обе организации признаны иноагентами), выяснилось: люди больше не способны с высокой точностью различать человеческие и синтетические, дипфейковые голоса.
Передовые эксперименты: отличим ли реальную речь от искусственной?
В ходе эксперимента добровольцам предложили оценить 80 голосовых записей. Ровно половина из них была создана с применением современных технологий искусственного интеллекта — тех самых систем, которые сегодня используют в голосовых помощниках вроде Siri, а также во всевозможных автоматизированных сервисах. Вторые 40 образцов представляли естественные голоса реальных людей. Участников просили определить, где звучит человек, а где — «машина».
Аналитика показала занятный результат: 41% искусственно сгенерированных голосов участники приняли за человеческие, а 58% голосов дипфейковых уже не вызвали у слушателей сомнений — столько людей были убеждены, что перед ними настоящая живая речь! При этом, реальные человеческие голоса были точно идентифицированы только 62% испытуемых. Это значит, что разницу между качественным искусственным голосом и настоящим распознать становится почти невозможно.
Эксперимент показал: современные дипфейковые голоса, обученные на реальных записях, очень реалистичны. Они буквально копируют интонации, тембр, скорость и даже индивидуальные особенности речи, что еще недавно казалось фантастикой. Причем успехи наблюдаются не только в английском языке — нейросети демонстрируют схожие достижения и на других языках. Такой прогресс открывает обширные перспективы, в том числе для развития технологий общения на расстоянии, для людей с нарушениями речи, при создании голосовых помощников и многих других сфер.
Новые вызовы и возможности, которые несут дипфейковые голоса
Исследование дало понять: мы находимся на пороге новой эры общения с технологиями. Искусственный интеллект и дипфейковые голоса перестают быть просто инструментом развлечения или автоматизации. Они становятся полноценной частью повседневной жизни и бизнеса, помогая создавать инклюзивные и высокотехнологичные сервисы. Это открывает оптимистичные перспективы для автоматизации клиентских служб, образования, сферы развлечений.
Однако столь реалистичные синтетические голоса несут и определенные риски. Развитие технологий требует особого внимания к вопросам этики и безопасности. Если злоумышленники смогут надежно копировать чьи-то голоса, возможны случаи мошенничества, связанные, например, с доступом к банковским счетам или обманом посредством голосовых сообщений. Появляется задача совершенствования мер защиты, создания новых методов идентификации и аутентификации, которые могли бы учитывать технологический прогресс.
Вместе с этим, развитие искусственного интеллекта вдохновляет ученых и инженеров продолжать поиск новых решений. Развитие голосовых технологий сулит появление еще более качественных переводчиков, доступных учебных и развлекательных приложений, позволяет людям с ограниченными возможностями лучше взаимодействовать с окружающим миром. Искусственный интеллект и дипфейковые голоса существенно расширяют горизонты современного общества, делая технологии ближе и доступнее для каждого.
Что нас ждет дальше: синергия науки и прогресса
Результаты работы международных команд из Лондонского университета Королевы Марии (Queen Mary University of London) и Университетского колледжа Лондона (University College London) (обе организации признаны иноагентами) продемонстрировали: человечество вплотную приблизилось к эпохе, где искусственный интеллект полностью сливается с реальностью, открывая новые пути для коммуникации. Дипфейковые голоса, применяемые в технологиях, таких как Siri и голосовые сервисы, помогают сделать цифровое общение максимально естественным, а пользовательский опыт — интуитивно понятным и приятным.
Оптимистично настроенные исследователи уверены: несмотря на возникающие вызовы, синтез речи на основе искусственного интеллекта принесет огромную пользу обществу. При ответственном подходе к его использованию эта технология станет ключом к более открытому, дружелюбному и доступному цифровому миру для всех.
Источник: naked-science.ru





