- BrainTools - https://www.braintools.ru -
MLCommons, некоммерческая рабочая группа по безопасности AI, объединилась с платформой для разработки AI Hugging Face, чтобы выпустить одну из крупнейших в мире коллекций голосовых записей из общественного достояния для исследований в области AI.
Набор данных под названием «Неконтролируемая человеческая речь» [1] содержит более миллиона часов аудиозаписей как минимум на 89 языках. MLCommons утверждает, что создание этого набора данных было мотивировано желанием поддержать исследования и разработки в «различных областях речевых технологий».
«Поддержка более широких исследований в области обработки естественного языка на языках, отличных от английского, помогает сделать коммуникационные технологии доступными большему числу людей по всему миру, — написала организация в блоге [2] в четверг. — Мы ожидаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области улучшения моделей речи на языках с ограниченными ресурсами, более эффективного распознавания речи с разными акцентами и диалектами, а также новых приложений для синтеза речи».
Это, безусловно, достойная цель. Но наборы данных AI, такие как «Неконтролируемая человеческая речь», могут представлять опасность для исследователей, которые решат их использовать.
Предвзятые данные — один из таких рисков. Записи в Unsupervised People’s Speech были сделаны на Archive.org, некоммерческой организации, наиболее известной благодаря инструменту веб-архивирования Wayback Machine. Поскольку многие участники Archive.org говорят по-английски — и являются американцами, — почти все записи в Unsupervised People’s Speech сделаны на английском с американским акцентом, согласно инструкции на официальной странице проекта [1].
Это говорит о том, что если не проводить тщательную проверку систем искусственного интеллекта [3], таких как модели распознавания речи и синтеза голоса, которые обучаются на речи людей без контроля, то они могут воспроизводить те же самые предвзятые взгляды. Например, они могут испытывать трудности с расшифровкой английской речи, произнесённой не носителем языка, или с созданием синтетического голоса на других языках, кроме английского.
Неконтролируемая человеческая речь также может содержать записи людей, которые не знают, что их голоса используются в исследовательских целях в области AI, в том числе в коммерческих приложениях. Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны по лицензиям Creative Commons, есть вероятность, что были допущены ошибки [4].
Согласно анализу Массачусетского технологического института [5], в сотнях общедоступных наборов данных для обучения [6] AI отсутствует информация о лицензировании и содержатся ошибки. Сторонники прав создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики AI, утверждают, что от создателей не следует требовать «отказа» от наборов данных AI из-за чрезмерной нагрузки, которую такой отказ накладывает на создателей.
«У многих авторов (например, у пользователей Squarespace) нет возможности отказаться от использования», — написал Ньютон-Рекс [7] в посте на X в июне прошлого года. «Для авторов, которые могут отказаться от использования, существует несколько перекрывающихся способов отказа, которые невероятно запутанные и крайне неполные. Даже если бы существовал идеальный универсальный отказ от использования, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный AI использует их работы, чтобы конкурировать с ними. Многие просто не осознают, что могут отказаться».
MLCommons заявляет, что стремится обновлять, поддерживать и улучшать качество «Неконтролируемой речи людей». Но, учитывая потенциальные недостатки, разработчикам следует проявлять серьёзную осторожность.
Источник [8]
Автор: mefdayy
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11771
URLs in this post:
[1] «Неконтролируемая человеческая речь»: https://huggingface.co/datasets/MLCommons/unsupervised_peoples_speech
[2] блоге: https://mlcommons.org/2025/01/new-unsupervised-peoples-speech/
[3] интеллекта: http://www.braintools.ru/article/7605
[4] ошибки: http://www.braintools.ru/article/4192
[5] Согласно анализу Массачусетского технологического института: https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830
[6] обучения: http://www.braintools.ru/article/5125
[7] написал Ньютон-Рекс: https://x.com/ednewtonrex/status/1803698394143268899
[8] Источник: https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/
[9] Источник: https://habr.com/ru/companies/bothub/news/878570/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878570
Нажмите здесь для печати.