«Неконтролируемая человеческая речь»: какие опасности таит в себе новый набор данных для AI?

MLCommons, некоммерческая рабочая группа по безопасности AI, объединилась с платформой для разработки AI Hugging Face, чтобы выпустить одну из крупнейших в мире коллекций голосовых записей из общественного достояния для исследований в области AI.

Набор данных под названием «Неконтролируемая человеческая речь» ^[1] содержит более миллиона часов аудиозаписей как минимум на 89 языках. MLCommons утверждает, что создание этого набора данных было мотивировано желанием поддержать исследования и разработки в «различных областях речевых технологий».

«Поддержка более широких исследований в области обработки естественного языка на языках, отличных от английского, помогает сделать коммуникационные технологии доступными большему числу людей по всему миру, — написала организация в блоге ^[2] в четверг. — Мы ожидаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области улучшения моделей речи на языках с ограниченными ресурсами, более эффективного распознавания речи с разными акцентами и диалектами, а также новых приложений для синтеза речи».

Это, безусловно, достойная цель. Но наборы данных AI, такие как «Неконтролируемая человеческая речь», могут представлять опасность для исследователей, которые решат их использовать.

Предвзятые данные — один из таких рисков. Записи в Unsupervised People’s Speech были сделаны на Archive.org, некоммерческой организации, наиболее известной благодаря инструменту веб-архивирования Wayback Machine. Поскольку многие участники Archive.org говорят по-английски — и являются американцами, — почти все записи в Unsupervised People’s Speech сделаны на английском с американским акцентом, согласно инструкции на официальной странице проекта ^[1].

Это говорит о том, что если не проводить тщательную проверку систем искусственного интеллекта ^[3], таких как модели распознавания речи и синтеза голоса, которые обучаются на речи людей без контроля, то они могут воспроизводить те же самые предвзятые взгляды. Например, они могут испытывать трудности с расшифровкой английской речи, произнесённой не носителем языка, или с созданием синтетического голоса на других языках, кроме английского.

Неконтролируемая человеческая речь также может содержать записи людей, которые не знают, что их голоса используются в исследовательских целях в области AI, в том числе в коммерческих приложениях. Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны по лицензиям Creative Commons, есть вероятность, что были допущены ошибки ^[4].

Согласно анализу Массачусетского технологического института ^[5], в сотнях общедоступных наборов данных для обучения ^[6] AI отсутствует информация о лицензировании и содержатся ошибки. Сторонники прав создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики AI, утверждают, что от создателей не следует требовать «отказа» от наборов данных AI из-за чрезмерной нагрузки, которую такой отказ накладывает на создателей.

«У многих авторов (например, у пользователей Squarespace) нет возможности отказаться от использования», — написал Ньютон-Рекс ^[7] в посте на X в июне прошлого года. «Для авторов, которые могут отказаться от использования, существует несколько перекрывающихся способов отказа, которые невероятно запутанные и крайне неполные. Даже если бы существовал идеальный универсальный отказ от использования, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный AI использует их работы, чтобы конкурировать с ними. Многие просто не осознают, что могут отказаться».

MLCommons заявляет, что стремится обновлять, поддерживать и улучшать качество «Неконтролируемой речи людей». Но, учитывая потенциальные недостатки, разработчикам следует проявлять серьёзную осторожность.

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11771

URLs in this post:

[1] «Неконтролируемая человеческая речь»: https://huggingface.co/datasets/MLCommons/unsupervised_peoples_speech

[2] блоге: https://mlcommons.org/2025/01/new-unsupervised-peoples-speech/

[3] интеллекта: http://www.braintools.ru/article/7605

[4] ошибки: http://www.braintools.ru/article/4192

[5] Согласно анализу Массачусетского технологического института: https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830

[6] обучения: http://www.braintools.ru/article/5125

[7] написал Ньютон-Рекс: https://x.com/ednewtonrex/status/1803698394143268899

[8] Источник: https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

[9] Источник: https://habr.com/ru/companies/bothub/news/878570/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878570

Нажмите здесь для печати.