- BrainTools - https://www.braintools.ru -
Илон Маск заявил, что для обучения [1] моделей искусственного интеллекта [2] осталось мало реальных данных. Ранее подобную точку зрения [3] высказывал бывший главный научный [4] сотрудник OpenAI Илья Суцкевер.
«Мы уже практически исчерпали совокупный объём человеческих знаний, подходящих для обучения ИИ. Это произошло в прошлом году», — цитирует [5]Маска TechCrunch.
В декабре Илья Суцкевер на NeurIPS отметил, что индустрия ИИ достигла «пика использования данных», и предсказал, что нехватка данных для обучения заставит компании отойти от привычного формата разработки моделей.
По мнению Маска, решением проблемы могут стать синтетические данные, которые генерируют сами модели.
«Единственный способ дополнить [реальные данные] — это использовать синтетические данные, которые создаёт сам ИИ. С синтетическими данными ИИ будет как бы оценивать себя и проходить процесс самообучения», — заявил он.
Некоторые компании уже используют синтетические данные для обучения моделей ИИ. По оценкам Gartner, 60% данных, которые использовались для ИИ-проектов в 2024 году, были синтетическими. Среди моделей, которые обучались на синтетических данных наряду с реальными, TechCrunch перечисляет Microsoft Phi-4, Gemma от Google, Claude 3.5 Sonnet от Anthropic.
Отмечается, что обучение на синтетических данных экономит средства. ИИ-стартап Writer утверждает, что разработка его модели Palmyra X 004, для которой почти полностью использовались синтетические источники, обошлась всего в $700 000 (для сравнения, сопоставимая по размеру модель OpenAI стоит $4,6 млн).
Тем не менее, синтетические данные могут привести к коллапсу модели, когда она становится менее «креативной» и более предвзятой, что в конечном итоге ставит под угрозу её функциональность.
Автор: AnnieBronson
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11134
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] интеллекта: http://www.braintools.ru/article/7605
[3] зрения: http://www.braintools.ru/article/6238
[4] научный: http://www.braintools.ru/article/7634
[5] цитирует : https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/
[6] Источник: https://habr.com/ru/news/872586/?utm_source=habrahabr&utm_medium=rss&utm_campaign=872586
Нажмите здесь для печати.