Илон Маск заявил, что для обучения моделей искусственного интеллекта осталось мало реальных данных. Ранее подобную точку зрения высказывал бывший главный научный сотрудник OpenAI Илья Суцкевер.
«Мы уже практически исчерпали совокупный объём человеческих знаний, подходящих для обучения ИИ. Это произошло в прошлом году», — цитирует Маска TechCrunch.
В декабре Илья Суцкевер на NeurIPS отметил, что индустрия ИИ достигла «пика использования данных», и предсказал, что нехватка данных для обучения заставит компании отойти от привычного формата разработки моделей.
По мнению Маска, решением проблемы могут стать синтетические данные, которые генерируют сами модели.
«Единственный способ дополнить [реальные данные] — это использовать синтетические данные, которые создаёт сам ИИ. С синтетическими данными ИИ будет как бы оценивать себя и проходить процесс самообучения», — заявил он.
Некоторые компании уже используют синтетические данные для обучения моделей ИИ. По оценкам Gartner, 60% данных, которые использовались для ИИ-проектов в 2024 году, были синтетическими. Среди моделей, которые обучались на синтетических данных наряду с реальными, TechCrunch перечисляет Microsoft Phi-4, Gemma от Google, Claude 3.5 Sonnet от Anthropic.
Отмечается, что обучение на синтетических данных экономит средства. ИИ-стартап Writer утверждает, что разработка его модели Palmyra X 004, для которой почти полностью использовались синтетические источники, обошлась всего в $700 000 (для сравнения, сопоставимая по размеру модель OpenAI стоит $4,6 млн).
Тем не менее, синтетические данные могут привести к коллапсу модели, когда она становится менее «креативной» и более предвзятой, что в конечном итоге ставит под угрозу её функциональность.
Автор: AnnieBronson