- BrainTools - https://www.braintools.ru -
Илья Суцкевер, соучредитель и бывший главный ученый OpenAI, утверждает, что данные — это ископаемое топливо ИИ, и мы его исчерпали. Правда ли это?
Дисклеймер: это вольный перевод колонки [1] издания Forbes, которую написал Гамильтон Ман. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» [2] — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Обсудить пилот или задать вопрос об LLM можно здесь [3].
Это заявление сделано в контексте объяснения того, что ограничение для ИИ (особенно для LLM) заключается в качестве данных, необходимых для имитации интеллекта [4], — ограничение, часто называемое «энтропийным разрывом».
Энтропия в теории информации — это мера неопределенности или непредсказуемости в пробабилистической системе. В контексте ИИ энтропия количественно оценивает вариабельность и богатство информации внутри набора данных, отражая, насколько равномерно распределены или разнообразны данные по возможным исходам. Это разнообразие способствует неопределенности, обеспечивает широкий спектр шаблонов или характеристик, которые охватывает набор данных, и на которых ИИ может учиться.
По-другому «энтропийный разрыв» можно определить как разницу между вариабельностью и богатством шаблонов, присутствующих в обучающих данных, и вариабельностью, необходимой для имитации сложности человеческого интеллекта или реальных сценариев.
В ИИ этот разрыв подчеркивает несоответствие между разнообразием и неопределенностью, присутствующими в обучающих данных, и более широким, более непредсказуемым разнообразием, с которым модель сталкивается при развертывании в реальных условиях.
Чем значительнее этот энтропийный разрыв, тем менее способна модель к обобщению на невидимые данные, адаптации к новым условиям или достижению значимой производительности в разнообразных задачах.
Преодоление этого разрыва требует не только большего количества данных, но и данных более высокого качества, контекстуально богатых и разнообразных наборов данных, которые отражают сложность задач, для выполнения которых предназначен ИИ.
С этой точки зрения [5], утверждение «данные — это ископаемое топливо ИИ, и мы его исчерпали» равносильно тому, что качественные, контекстуально богатые и разнообразные наборы данных являются конечным ресурсом, аналогичным ископаемому топливу.
Однако это неправда. В отличие от ископаемых видов топлива, которые универсально конечны, дефицит качественных данных сильно зависит от контекста. В некоторых областях, таких как исследования редких заболеваний или специализированные промышленные приложения, доступность специфичных для задачи качественных данных может восприниматься как ограниченная.
Тем не менее, этот дефицит часто можно решить с помощью методов, таких как генерация синтетических данных, дополнение данных или трансферное обучение [6], которые позволяют уточнить или расширить доступные данные.
Нужно признать, что эти методы не универсальны. Например, синтетические данные могут не полностью охватывать нюансы реальных сценариев, а трансферное обучение может испытывать трудности с обобщением по значительно различающимся доменам. Кроме того, ни один из методов не решает проблемы предвзятости или заполняет пробелы в высокоспециализированных или этически чувствительных наборах данных, где точная и контекстуально-специфическая информация критична. Эти ограничения подчеркивают важность тщательной курации данных и экспертизы в домене для преодоления дефицита качественных данных.
Тем не менее, данные, генерируемые человеком, являются по своей природе возобновляемым ресурсом для ИИ, так как они постоянно генерируются человеческой деятельностью, технологиями и окружающей средой, в отличие от ископаемых видов топлива, которые конечны и не возобновляемы во всех случаях, независимо от обстоятельств.
Как полезность возобновляемости данных, генерируемых человеком, зависит от значительных усилий по предварительной обработке, курации и обеспечению доменной релевантности, сырые данные сами по себе часто недостаточны для ИИ, и недавние исследования показывают, что синтетические данные сами по себе не могут служить заменой.
Таким образом, реальная проблема ИИ, связанная с данными, заключается не в их исчерпании, а в дефиците полезных качественных данных для конкретных задач. Это создает узкие места, имитирующие вызовы исчерпания, но не похожие на них.
Кроме того, что считается «полезным», сильно зависит от задачи и варьируется в зависимости от доменов, так как это полностью зависит от контекста и целей системы ИИ. В отличие от абсолютного дефицита ископаемых видов топлива, дефицит полезных данных — это относительное понятие, формируемое требованиями конкретного приложения и способностью к предварительной обработке, курации или генерации данных, релевантных для задачи.
Более подходящая аналогия может быть такой: данные — это «питьевая вода» ИИ.
Не все данные сразу полезны, как и не вся вода пригодна для питья. Сырые данные, как сырая вода, должны пройти процесс очистки, чтобы стать ценными для систем ИИ. Этот процесс очистки включает очистку данных для удаления шума и ошибок, маркировку для добавления структуры и значения, а также дополнение для повышения разнообразия и применимости. Только после этих шагов данные могут соответствовать конкретным стандартам качества и релевантности, необходимым для приложений ИИ, так же как вода должна быть обработана, чтобы стать безопасной и эффективной для человеческого потребления. Эта аналогия подчеркивает важность подготовки и уточнения в превращении сырых данных в ресурс, который питает развитие ИИ.
Реальная проблема ИИ заключается не в возобновляемости данных, которые постоянно генерируются по замыслу, а в преобразовании этих данных в полезные качественные наборы данных для решения дефицита. Этот процесс должен включать борьбу с критическими вызовами, такими как идентификация и минимизация предвзятостей, обеспечение справедливости и навигация по этическим соображениям. Контекстуальная специфичность также играет ключевую роль, так как данные, которые являются релевантными и полезными в одном домене, могут не подходить для другого.
Эти сложности подчеркивают необходимость вдумчивой курации, строгой валидации и приверженности этическим принципам в превращении сырых данных в надежную основу для систем ИИ.
Когда говорят: «Данные — это ископаемое топливо ИИ, и мы его исчерпали!», мы делаем две ошибки [7]: первое – недооцениваем или забываем [8], что существуют природные ресурсы, от которых зависит ИИ, которые действительно ископаемые и поэтому невозобновляемы (в отличие от данных).
Вторая, возможно, еще более серьезная, — это делать невидимым то, что создает условия для существования данных, необходимых для обучения ИИ: люди.
Данные не существуют независимо от человеческих действий, решений или систем. Будь то генерируемые через явные действия (например, посты в социальных сетях) или неявно (например, данные сенсоров), люди непосредственно или косвенно ответственны за создание условий для генерации данных. Поскольку данные происходят из человеческой деятельности, их существование и полезность зависят от человеческих вкладов, креативности и труда.
Пока существуют люди, будут существовать данные, включая качественные данные.
По определению, ИИ не выпил все данные, и что важно, не должен, из-за природных ресурсов, которые устанавливают устойчивое ограничение, о котором мы должны заботиться, чтобы поставить искусственную целостность выше любого интеллекта.
Автор: technokratiya
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/10752
URLs in this post:
[1] колонки: https://www.forbes.com/sites/hamiltonmann/2024/12/20/data-is-not-the-fossil-fuel-of-ai/?ss=ai
[2] «Голос Технократии»: https://t.me/+vvm8PwCuv-EyZGY6
[3] здесь: https://t.me/TechnokratosAMABot
[4] интеллекта: http://www.braintools.ru/article/7605
[5] зрения: http://www.braintools.ru/article/6238
[6] обучение: http://www.braintools.ru/article/5125
[7] ошибки: http://www.braintools.ru/article/4192
[8] забываем: http://www.braintools.ru/article/333
[9] Источник: https://habr.com/ru/articles/870668/?utm_campaign=870668&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.